A‏ مركز الملك عبدالته بن عبدالعزيز الدولي 


8 M E NS. 
OSA لخدمة اللغة العربية هذه الطبعة إهداء من‎ 2 5 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا‎ The Arabic Language QU 


المُعالجة الآليّة للغة العربيّة 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


مباحث لغوية ٥۸‏ 


تطبيقات أساسيّة فى المعائجة الآئيّة 


- 


P d 
د. المعتز بالله السّعيد‎ Cr € 


الباحثون: 


۱ ھ- 15١٠م‏ 


SS,‏ مركز الملك عبدالته بن عبدالعزيز الدولي 
4 لخدمة اللغة العربية 
King Abdullah Bin Abdulaziz Int'l Center for 9 A‏ 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


O‏ مركز الملك عبدالته بن عبدالعزيز الدولي 
4 لخدمة اللغة العربية 
م ® King Abdullah Bin Abdulaziz Int Center for‏ 

e 


The Arabic Language 

ATE E چ‎ 

تطبيقات أساسيّة فى المُعالجة الآليّة 
n z‏ 

للكة القزيية 

da الطبعة‎ 

gr ca 1 

جميع الحقوق محفوظة 

المملكة العربية السعودية - الرياض 

١١5177” الرياض‎ ١16٠١ ص.ب‎ 

۰۰4111۱۲0۸۱1۰۸۲ = ٠١ ٩4111۱1۲0۸۷1 1۸ ھاتف:‎ 

البريد الإليكتروني: nashr@kaica.org.sa‏ 


مركز الملك عبدالله بن عبدالعزيز الدولى لخدمة اللغة 

.ه١54١‎ dis di 

فهرسة مكتبة ا ملك فهد الوطنية أثناء النشر 

رشوان» محسن 
pedo eai SEE‏ 

رشوان؛ المعتز بالله السعيد -AMÉ* (ual JI-.‏ 


ردمك: [d | ۹۷۸-10۳-۸۲۲۱ oY- Y‏ دار وجوه yiil‏ والتوزيع 
١‏ -اللغة العربية ilb ES‏ البيانات CA y Í‏ المعتز بالله 1 Wojoch Publishing § Distribution House H1‏ 


كلف مشا ل www.wojoooh.com iJ s‏ 
ا ب ر 
ديوي VE [NSW ٤۱۰,۲۸١‏ ©الهاتف:4562410 © الفاكس:4561675 
رقم الإيداع: VEE VVW‏ : © للتواصل والنشر: 
ردمك: Y- AYYY- oY- Y‏ 1 -ملا9 : infogwojoooh..omQ‏ 


لايسمح بإعادة إصدار هذا الكتابء أو نقله في أي شكل أو وسيلة» 
سواء أكان إلكترونية أم يدوية أم ميكانيكية» بها في ذلك جميع أنواع تصوير المستندات بالنسخ» أو 
التسجيل أو التخزين» أو أنظمة الاسترجاع» دون إذن خطي من المركز بذلك. 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


هذه الطبعة إهداء من SA‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
١١١ pa‏ 


فهرس الكتاب 


كلم المركر NE‏ 
س لمر انوب سب سمه د 
Sg S pH Intl‏ 


۱۹ خلفية تاريخية لتطور الخطاطة العربية‎ - ١٠ 
E تاريخ حوسبة الخطاطة العربية‎ - E: 


á 


Yq . تحديات الخطاطة العربية التي تواجه التعرف عليها آلا‎ e 


owe Tee ui Ate 
o ads es p E 0 3 ati Sod M 


MET Euer m E 
£V _ أساليب التعرف على الكتابة العربية بتعقب خط اليد‎ -١ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
à D.‏ 8 ييا 


Wines E dT 
s - m"-— E ien RIOT : 
s E 1 re » Eo D y 2 

البحث الأوّل: التَعرُف d‏ على الكلام هه 

[ e ~ : ——— Y £a digi rad = 3 

ME MEE سد‎ Te 

WV ا‎ 
ا‎ E 1 
7 3 ® pm 5 ij EX 2 TTC 

TS e 

i s قي‎ SS | 

AV (NLP) اتات هات اللغات الطيمية‎ | 
3 1 — ا‎ x po 3 
Bos 1 — PCT OM - e ue 3 
x 7 RERO E is i» ji [ 
١١١ S مقدمة‎ 


uo ا‎ N 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


TEETE تقييم‎ 9 
En | n eue EEA c en | 


- أنظمة الكشف عن coli ul‏ اة 


(Plagiarism Detection Systems) ۰ 


` T T€ 5 2 07 ل‎ NEUES 


4- الخلاصة 


(MY الباحثون‎ 


هذه الطبعة إهداء من SA‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
١١١١ ©2131‏ 


كلمة المركز 


يعمل المركز في جال البحث العلمي ونشر الكتب مستهدفاً التركيز على المجالات 
tou‏ زالع يحاجة فا ا عليهاء S‏ الدع Add sei‏ 
الباحثين والجهات الأكاديمية إلى أهمية استثغارها بمختلف وجوه الاستشار» وذلك مثل 
Jie‏ (التخطيط اللغوي) و (العربية في العالم) و(الأدلة والمعلومات) و (تعليم العربية 
لأبناتها أو لغير الناطقين Ce‏ إلى غير ذلك من المجالات» وإن من أهم مجالات البحث 
المستقبلية في اللغة العربية مجال (العربية والحوسبة » والذكاء الاصطناعي) حيث إن 
حياة اللغات ومستقبلها مرهونة بمدى تجاويها مع التطورات التقنية والعالم الافتراضي» 
وكثافة المحتوى الالكتروني المكتوب» وهو ما يشكل تحديا حقيقيا أمام اللغات غير 
المنتجة للمعرفة أو للتقنية. 

وقد عمل المركز على تسليط الضوء على هذا المجال التخصصى؛ مستعينا بالكفاءات 
القادرة من المهتمين بالتخصص البيني (بين اللغة a‏ جهودهم» Dalay‏ 
إلى نشرهاء وتعميم مبادئهاء راغباً أن يكون هذا المسار العلمي مقررا في الجامعات في 
كلية العربية والحاسوب» ومجالا بحثيا يقصده الباحثون الأكديميون» والجهات البحثية 


م 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
$5 ييا 


وقد أصدر المركز سابقا ستة عشر كتاباً ختصا في (حوسبة العربية) وني 
الإفادة من (المدونات اللغوية) في الأبحاث العربية» ويحتفل بإصدار سبعة كتب جديدة 
ختصة في (حوسبة العربية والذكاء الاصطناعي) c‏ ويقدمها للقارئ العربي» وللجهات 
الأكاديمية؛ للإفادة منها في مناهج التعليم والبناء عليه» وهذه الكتب السبعة هي: 
(العربيّة والذكاء الاصطناعيٌ» تطبيقات الذكاء الاصطناعي في خدمة اللغة العربية» 
خوارزميات الذكاء الاصطناعي في تحليل النص العربي» مقدمة في حوسبة اللغة 
العربية» الموارد اللغوية الحاسوبية» المعالجة الآلية للنصوص العربية» تطبيقات أساسية 
في المعالجة الآلية للغة العربية). 


ويشكر المركز السادة مؤلفي الكتب» ومحرريهاء لما تفضلوا به من عمل علمي 
رصين» وأدعو الباحثين والمؤلفين إلى التواصل مع المركز لاستكال المسيرة» وتفتيق 


وفق الله الجهود وسدد الرؤى. 


الأمين العام 
أ. د. محمود إسماعيل صالح 


حفاكت 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
١١١ EN‏ 


تشهد مُعاجَةٌ اللّغات الطَّبيعيّة CIUS udo‏ مُبتكرة d‏ ل ا مو م sei‏ 
القائم على استيعاب قوانين هذه اللات وقواعدها؛ dll p‏ بعضّها E‏ من منطق 
الآلة القائم على نمذجة, اللغة d‏ مُستوياتها المتعددة والواقع أن الأساليبَ والمناهج 
المستخدمة في مُعالجة اللُغات Éa‏ سم بقدر من المرونة الي : تسمحٌ بالجمع oe‏ 
ij cU‏ وإحصائيّة. على التحو الذي يُمَكَنْ من الوصول إلى أفضل cil‏ 
d‏ 

TRES‏ على نجاعة هذه الأساليب وصلاحيّيّها للمُعالحة يستدعي تقيي 
موضوعيًاء يتجاورٌ REI‏ الافتراضيّ إلى إطار تطبيقيٌ عمل يُساعدٌ على 
استكشاف إشكالات المُعاَة Ra eie s‏ حلولا la jóla IG‏ ولعل Je‏ 
ذلك التقييم يض أيدينا على حقيقة» مفادها أن أساليب مُعالحة اللّغات الطبيعية تتكامل 


فیا بينها؛ كول عل b Lees‏ اقات aot cel ded pto od‏ هذه 
التطبيقات. 


^ 


كو 


من هذا المُنطَلَقء BA‏ للقارئ العرب الكتابَ الراب من سلسلة دراسات وبُحُوث 
في eu‏ اللغة cis adl‏ بعُنوان (تطبيقات أساسيّة في المُعاّة ZI‏ 34 العربيّة)؛ 
£i ai 93‏ 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
5 ييا 


Sar "dora MEG drip ie rd 


TC" 
الآتي:‎ 


* الفصل aJ ikh: JSN‏ العربيّ المكتوب؛ يُعنى بتقنيات dI‏ على ual‏ 
Gl‏ المكتوب» ويشتملٌ على ثلاثة مباحث؛ dots m‏ في المبحث الأول 
طبه رسع ال لرن و لذلك بإرهاصات الخطاطة العربيّة وتاريخ 

حوسَيتها IA‏ عليها G‏ ويعنى nl‏ الثاني بأنواع اعرف الاي 
على al‏ العربّ المكتوب وتطبيقاته. M TO CPP EHI‏ لااب 
ae‏ على qan! ua‏ سواءٌ ots‏ مطبوعًا أم مخطوطا؛ ويعرضٌ SUS‏ 
E xa aac‏ لازم ر Ael ualde cool‏ 

OSI على‎ c العربي المنطوق؛ يُعنى بتقنيات‎ ua E الفصل الثاني:‎ e 
تمهيدًا حول‎ ÍI البحث‎ se TOWEN المنطوق؛ ويشتمل عل ثلاثة‎ 
مع العناية بتطبيق ذلك في اللّغة‎ casi على الكلام ومُكوّنات‎ QI اعرف‎ 
(المكتوب» إلى كلام (منطوق).‎ E ويُعنى المبحث الثاني نم تحويل‎ od 
لثم اعرف عل اللغة والمتكلم.‎ LIBI ويعرض المبحث‎ 

ERR ERE SJJ الفصل‎ e 
حول‎ eel EG الفصل على آليّات توظيف الحاسوب في تعليم اللغات؛ حيث‎ 
s Lad FA s وجدواها في تعلم اللغة؛‎ Ce dll اللغات‎ eG تقنيات‎ 
على الكلام المنطوقء وتطبيقا‎ pl عملي حول تعلّم النطق باستخدام تة تقنية‎ 
المكتوب.‎ adl آخرٌ حول تعلّم الكتابة باستخدام تقنية التَعرّف على‎ 

MAT تطبيقات‎ del يتناولة الفصل باعتباره‎ «qt FA gol الفصل‎ * 

"C = مهيدًا حول الأسئلة المقاليّة وأنواعهاء‎ cy MNT 
تقييم الإجابات القصيرة» وأنظمة تقييم‎ 7l s للمقال»‎ JY لطُرّق التقييم‎ 


R 


hs 


عم 


اك 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o ©2131‏ ^ 


الرياضيًات» وأنظمة الكشف عن السّرقات الأدبيّة. كا يعرض لواقع أنظمة 
التقييم الآيّ في الخربيّة. 
وبعدٌ؛ UB‏ نرجو أن يُساعدَ هذا الكتابُ على فهم أعمق لتقنيات مُعالجة اللّغة 
العريئة LAT Lei das p‏ وتاس أذاتكون ماذة هذا الاب U- às‏ لان d‏ 
ميادين حوسبة اللّغة للبحث عن وسائل مبتكرة لبناء وتطوير تقنيات Lh‏ العربيّة 
عر م 5 ياتها Jl‏ و ختلفة. 
Ji‏ الله تعالى أن يتقبّل هذا الجهد بالذكر الحسَن والأجر الجزيل» وأن يجعلّه من 
العلم الذي ينفع أصحابه بعد ماتهم. 
t5‏ عليكٌ S s‏ وإليك أتبنا وإليك المصير. 


Bt 


ع 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقياً أو تداولها تجارياً 


ا 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


الفصل الأول 
مُعالجة النْصّ العربِيٌ المكتوب 


اللبحث الأوّل: طبيعة رسم al‏ العريّ (الخطاطة). 
المبحث الثَاني: أنواع التّعرّف الآ على su‏ 45 المكتوب. 
المببحث الثالث: أساليب التَّعرّف الال على النّصّ العريّ المكتوب. 
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هذه الطبعة إهداء من SA‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


xi 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
١١١ EN‏ 


المبحث الأول 


طبيعة رسم النص العربي 
(الخطاطة) 


١‏ - خلفية تاريخية لتطور الخطاطة العربية. 
-Y‏ تاريخ حوسبة الخطاطة العربية. 
-Y‏ تحديات الخطاطة العربية التي تواجه التعرف عليها OT‏ 


EN 


E 


E 


هذه الطبعة إهداء من SA‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


—YA- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o EN‏ ^ 


١‏ - خلفية تاريخية لتطور الخطاطة العربية 

حافظت اللغة العربية على استمراريتها كلغة محكية محتفظة بكيانها منذ ما يربو على 
ألفي عام - على أقل تقدير - إلى وقتنا هذاء Ut‏ يتوجها دون شك كأعرق اللغات الحية 
الكبرى المتداولة في العالم المعاصر. وقد احتفظت هذه اللغة على مدى هذا التاريخ 
الطويل بقدرتها على الاستجابة لمختلف الاحتياجات الحضارية للأجيال المتتابعة» 
كما استجابت باقتدار للتوسعات الجغرافية والتمددات العرقية للمتحدثين بها الذين 
تزايدوا من عدد محدود محصور أساسًا في شبه الجزيرة العربية قبيل ظهور الإسلام حتى 
تجاوز عددهم عام ١١١١م‏ الثلاثمئة وستين مليونًا يتخذون من العربية لغتهم eI‏ 
فضلاً عن عشرات الملايين الآخرين الذين يتحدثونها ضمن ما يربو على مليار مسلم 
غير عربي. 

ورغم أن قواعد الصوتيات والصرف والنحو ... وغير ذلك من أركان اللغة 
ودعائمها قد احتفظت بساتها المميزة عبر ذلك التاريخ الممتد والتوسع المستمرء OP‏ 
هناك تطورات متتابعة كانت تجري على بعض الملامح الأخرى لِلّغة. وتأتي الخطاطة 
العربية (التي تحدد طبيعة رسم النص العربي) ضمن الملامح التي جرت عليها مثل هذه 
التطورات وهي نفس الخطاطة المستخدمة لرسم النصوص في عدد آخر من اللغات 
الشرقية المعاصرة SYS‏ والفارسية والكردية» ىا استخدمت لرسم اللغة التركية 
حتى ثلاثينات القرن العشرين الميلادي. 

لم يكن الغالب على سكان شبه الجزيرة العربية قبل الإسلام تكوين دول ذات أنظمة 
مستقرة ومعاملات معقدة» وإن| كانوا في الغالب قبائل بدوية» ولم تكن الكتابة شائعة 
بينهم - حتى أنهم عرفوا وقتذاك بالأميين - حيث اعتمدوا أساسًا في تداول المعلومات 
والمعرفة على رواية وحفظ الأقوال البليغة المختصرة من شعر ونثر» وهو ما تميزوا فيه 
واشتهروا به. أما القلة النادرة التى كانت تعرف الكتابة - ربا بسبب مزاولتها للتجارة 
أو yl‏ د کی الحزيرة اها بكري SX oll col adl‏ > 
اكتفت بنظام كتابة يميل إلى البساطة. 

كانت الخطاطة في ذلك الوقت الباكر تمثل الحروف العربية الثانية والعشرين 
(أو الثلاثين) بخمسة عشر أو ستة عشر رمرًا رسوميًا (grapheme) (iil e‏ ومن 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
/ ;1 ا 


الواضح أن ذلك يسبب التباسًا كبيرًا في تمييز الحروف. وعلى سبيل JUL‏ فإن النقاط لم 
sss‏ قد أجلت يني الخطاط y cia a‏ اذلت Qs‏ كادى y‏ قاروا كاءو ايم 
كلها JEE‏ بنفس الرمز الرسومي» وكذلك كانت حروف الباء والتاء والثاء والنون والياء 
كلها تمثل بنفس الرمز الرسوميء ...» إلخ. وقد تمكن مَنْ يكتبون العربية في ذلك الزمن 
من التعايش مع هذا الالتباس بسبب ملكاتهم اللغوية الرفيعة» oos‏ كذلك بسبب 
البساطة النسبية للرسائل المتداولة بينهم. 

ويبين الشكل التالي كيف كانت ستبدو العبارة الآتية «الترجمة وسيلة أساسية لتبادل 
الحضارات بين الشعوب على مر العصور» عند خطاطتها في تلك المرحلة الباكرة. 


الترحمة aliai‏ اساسبة Js Load‏ الحضارات ننن ll‏ 2252 علي مر العصور 
الشّكل 1-١‏ : مثال على عبارة مكتوبة بالخطاطة العربية القديمة ما قبل الإسلام. 


وني بدايات القرن السابع الميلادي ei‏ الرسول الكريم محمد - صل الله عليه 
وسلم - برسالة الإسلام وني القلب منها القرآن الكريم بلسان عربي مبين وقد أمر 
الرسول الكريم أصحابه بتدوينه أولاً بأول وكان ذلك عبر الخطاطة القديمة» ثم جمعه 
من بعد ذلك خلفاؤه الراشدون ونشروا ALS‏ في البلاد التي وصل إليها الإسلام في 
زمنهم والتي غطت مساحات شاسعة من الأرض تسكنها أجناس شتى بألسنة شتى 
دخلوا في دين الإسلام ولا يتقنوا اللغة العربية بعد (وهم من اصطلح على تسميتهم 
بالأعاجم). وبطبيعة الحال فقد كثرت وتواترت أخطاء هؤلاء المسلمون الأعاجم في 
قراءة القرآن (وهو calo‏ على تسميته (AL‏ وكانت الخطاطة القديمة للعربية من 
أسابةاللكق eum eed‏ كانت تب الخركات الصرئية وتلسين الخزوك الشاب 
فيخلطون بينها. ولما انتشر ذلك خاف العلماء ء على كتاب الإسلام من التحريف فأضيفت 
النقاط للتمييز بين الحروف المتشابهة لتمييزها بصورة حاسمة كما نعرفها اليوم» وينسب 
ذلك العمل إلى «نصر بن عاصم الليثي»» ويبين الشكل رقم )۲-١(‏ أدناه نفس العبارة 
التي أوردناها كمثال في شكل رقم )١-١(‏ أعلاه لكنها مخطوطة بنقط الحروف. 


حاو = 
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الترجمة وسيلة أساسية لتبادل الحضارات بين الشعوب على مر العصور 

الشّكل :۲-١‏ نفس العبارة في الشكل السابق» ولكنها خطوطة بالنقاط لتقليل الالتباس. 

ds‏ حين أن نقاط (نصر ب ب عاضوا esed‏ الا لفاس :يان رهم حرو امجاته 
فقد بقي اللحن نتيجة الخلط بين ا حركات الصوتية ة لكل من هذه الحروف» وذلك ما 
أزاله اللغوي الشهير «أبو الأسود UE‏ بحل ناجع يتمثل في وضع blä‏ إضافية فوق 
أو تحت كل حرف للدلالة على الحركة الصوتية المصاحبة له وسمى تلك النقاط «نقاط 
الإعراب» (والإعراب هنا لا يقصد به ما نصطلح عليه اليوم من إبانة موقع الكلمة 
النحوي» ولكنه قصد به آنذاك إبانة الحركة الصوتية المصاحبة لكل حرف). 

وبعد ذلك بعقود ALIS‏ قام أستاذ أساتذة اللغة العربية في عصره «الخليل بن أحمد 
الفراهيدي البصري»"' بتحسين رسم «نقاط الإعراب» التي وضعها «أبو الأسود 
الدؤلي» وأبدها بعلامات التشكيل (أو الضبط) الصوتي التي نعرفها اليوم من فتحة 
وكسرة وضمة وسكون» فضلاً عن أنه أضاف على عمل «نصر بن عاصم» علامة تدل 
على تضعيف ا حرف (الشدة) ورسم ا همزة. 

وجعلت الخطاطة العربية بعد إضافات «الخليل ابن أحمد» النص العربي المكتوب 
-وخصوصًا القرآن الكريم- يسير القراءة واستبعدت إلى حد بعيد حالات الالتباس 
فيه. واستمر تلامذة الخليل في إضافة تحسينات تكميلية (كعلامات الوقف» والوصل» 
cally‏ والإدغام ... إلخ) على رسم القرآن الكريم حتى بلغ ذروته في كال الضبط 
بنهايات القرن الثالث ال هجري حين بدا المصحف الشريف على الهيئة التي نألفها اليوم 
(انظر شكل رقم ۳-١‏ أدناه) حيث تشتمل خطاطة النص القرآني في المصحف (وهي ما 
نعرفها اليوم بالرسم العثاني) على كل الرموز اللازمة لتمكين القارئ من تلاوة القرآن 
الكريم كما أنزل على الرسول الكريم محمد صل الله عليه وسلم. 


-١‏ جدير بالذكر أن «الخليل» قد تتلمذ على يديه كبار المشاهير من أساطين العربية ومنهم GL‏ و «الأَصْمَعِيّ) 
و«الكسائىٌ» و«النضر بن (res‏ ... وغيرهم 


#١‏ ب 
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md 25 A DU 2 po put 
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MET i eus‏ عاك اننا 


الشّكل Y — Y‏ عينة من نص القرآن الكريم مخطوطة بالرسم العثماني. 

ومع صعود الحضارة الإسلامية وقيام دوهما العظمى المتعاقبة من العباسيين إلى 
العثمانيين مرورًا le‏ بينهماء فإن النشاط الإداري والسياسي وكذلك النهضة العلمية 
والثقافية جعلت جميعها من التدوين والتوثيق d‏ 0 
الخطاطة العربية قد نالت حظًا Gis‏ من الاهتمام وظهر مفهوم «الخطوط [coti M)‏ 
الأبناط (fonts‏ حيث La‏ كل RAT‏ مطردًا e jik‏ بقواعد الخطاطة العربية العامة 
التق عليهاء ويتميز في الوقت نفسه بجماليات خاصة به تفيد أغراضًا معينة سواء كانت 
الزخرفة والتشكيل (مثل eden‏ والديواني؛ انظر الشكل رقم ٤-١‏ أدناه)» أو الإيحاء 
بالعراقة والأصالة (مثل iQ SE‏ أو الرشاقة والوضوح والمعيارية ible)‏ خطوط 
النسخ؛ انظر الشكل 5-١‏ أدناه)» أو السهولة والسرعة (خط الرقعة؛ انظر الشكل رقم 
١‏ -5 أدناه) ... إلخ. 
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الشكل ::-١‏ عينة زخرفية من الخط الديواني. 


خطوط النسخ هي أكثر الخطوط العربية شيوعا في المطبوعات 


وهي تجمع بين سهولة القراءة وججمال الشكل وقابلية الطباعة 
وتضم هذه العائلة من الخطوط العديد من الأفراد (S‏ في هذا المثال 
الشكل :5-١‏ عينة من خطوط النسخ. 
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دستب po‏ الرقئعة OV LO aL JI y Er‏ 
اررشتمام به برغ في ze‏ الاي صم القرن الا رت ١‏ جري 
قوضع زه الزطا طون ثواعر bo‏ وأسس اة 


ED,‏ طس ١‏ ائيس الير 
الود فى Po eue LU‏ 
رخاصة الأطاط مرعزت 


الشكل :5-١‏ عينة من خط الرقعة. 


-Y‏ تاريخ حوسبة الخطاطة العربية 

يمكن النظر لحوسبة خطاطة اللغة بصفة iole‏ على أنها امتداد لسالفاتها من التقنيات 
الأقدم في هذا الصدد وهي الآلات الكاتبة الكهربائية ومن قبلها الميكانيكية ومن قبله| 
تقنيات الطباعة بأجياها المتعاقبة. ومنذ بداية رحلة العالم مع الطباعة لم تكن اللغة العربية 
في هذا الصدد متخلفة عن نظيراتها من اللغات الأوروبية» فقد أدخل العثانيون آليات 
الطباعة مبكرًا إلى حاضرتهم المركزية «الآستانة» في النصف الثاني من القرن الخامس 
عشرء وهناك خلاف عم إذا كانوا سبقوا إليها بشكل مستقل أو نقلوها عن الأوروبيين 
الألمان (حيث استطاع CI e‏ إنشاء أول مطبعة في ae)‏ عام /514١م)»‏ وبغض 
النظر عن ذلك فإن الأمر المهم هو أن العثمانيين وقتذاك كانوا يخطون اللغة التركية (لغة 
دولتهم المركزية الرسمية) بالحرف العربي (واستمر ذلك حتى ثلاثينات القرن العشرين 
الميلادي) كما أن اللغة العربية نفسها كانت لغة سائدة في العلم والثقافة يتقنها جل 
المتعلمين الأتراك. 
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ودخلت عملية الطباعة إلى العالم العربي مع بدايات القرن التاسع عشر الميلادي في 
مصر وبلاد الشام» وأخذت من ذلك الوقت في الانتشار والتوسع؛ ومن مظاهر ذلك 
مثلاً إنشاء محمد علي باشا الكبير» للمطابع الأميرية في مصرء ثم تواصلت مواكبة نسخ 
وطباعة الخط العربي بعد ذلك لكل تطور في هذا المجال حتى وصلنا لعصر الحاسبات 
الرقمية في النصف الثاني من القرن العشرين الميلادي حيث لم تكن الخطاطة 
العربية أقل استعدادًا من أية لغة كبرى أخرى للرقمنة والحوسبة. وعلى الرغم 
من ذلك فقد تأخرت حوسبة الخطاطة العربية بشكل مستقر ومقبول إلى ial‏ 
oe‏ وبداية تسعينات القرن العشرين الميلادي! ونرى أنه من اهام إفساح 
الممساحة في هذا المقام لإزالة بعض الأوهام والالتباسات التي شاعت بأن هذا 
التأخر كان بسبب قصور وتعقيد في الخطاطة العربية أو بسبب تقصير 
وعجز علماء ومهندمي الحوسبة العرب. 

ظهرت بواكير الحاسبات الإلكترونية الرقمية في أربعينات وخسينات القرن 
العشرين الميلادي في الولايات المتحدة الأمريكية» وكانت dsg‏ أجهزة باهظة 
التكاليف هائلة الحجم (قد يشغل الواحد منها مبنى بأكمله) معقدة التشغيل do‏ بعض 
الأحيان سرية التفاصيل» ومع ذلك فإن أرفعها Fol‏ كان ذا إمكانات حسابية أقل من 
الآلات الحاسبة في أيامنا هذه! وكان تفاعل هذه الأجهزة مع مشغليها من المهندسين 
المتخصصين محدودًا وكان من البديبي أن يكون هذا التفاعل عبر اللغة الإنجليزية. وفي 
النقلاية cos] cil‏ ااه el‏ مله اا رن الا ا Y gode‏ 
(وإن ظل أقواها أضعف كثيرًا من أقل حاسب شخصى في أيامنا هذه) eus‏ أخذ الطلب 
على تطبيقاتها في مجالات الإدارة والهندسة والتنظيم فضلاً عن البحث العلمي في البروز 
والتنامي» ومع ذلك ظلت ضخمة الحجم (يشغل الواحد منها قاعة كبيرة ويستخدم 
طاقة كهربية هائلة) باهظة التكلفة» وعلى ذلك شرعت شركات - مثل «آي بي إم) 
الأمريكية - في تصنيع أعداد محدودة منها لبيعها بشكل تجاري إلى كبريات المؤسسات 
المصرفية والصناعية والحكومية والبحثية» ولما كان تشغيلها ما يزال يحتاج إلى خبراء 
ذوي تأهيل هندسي متخصص - وهم يتقنون الإنجليزية بطبيعة الحال - OB‏ انفراد 
اللغة الإنجليزية بواجهات استخدام برمجيات تلك الحاسبات ظل أمرًا مقبولاً بعيدًا 
عن الانتقاد والجدل. 


—-Yo- 
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تغير المشهد جذريًا بعد تصنيع وشيوع المشغلات الدقيقة للحاسبات «المايكرُو- 
(Microprocessor) (y goms 5 y‏ على نطاق واسع مطلع cuu‏ حيث شاعت 
حاسباتٌ صغيرة للألعاب وللتطبيقات البسيطة بين عموم الناس وخاصة الشباب 
(ومن أشهرها في ذلك الوقت تلك التي أطلقتها شركة «أتاري»» وشركة «سينكلير»)» 
ورغم أن تلك الحاسبات التي ارتكزت على الأجيال الأولى من المشغلات الدقيقة 
كانت ذات إمكانات بدائية جدًا مقارنة بالحاسبات الشخصية في أيامنا هذه 
Lb‏ لاقت رواجم Sls‏ بين الشباب في ذلك الوقت حيث كانت مدخلهم 
إلى dle‏ رقمي جديد ساحر باهر. وعند هذه النقطة بدأ الالتفات إلى مسألة اللغة التي 
تتفاعل بها برمجيات تلك الحاسبات مع مستخدميها الذين لم يكن جميعهم بالضرورة 
يتقنون الإنجليزية» ونشأ عندئذٍ الطلب على استخدام اللغات المحلية للأسواق التي 
تتتشر مها أعداد كيرة من سعخدسى تلك الحاسيات وكانت العربية من بين تلك 
اللغات. l‏ 
ما aae‏ وخر i31 adsl E MI a call s d,‏ 
.١‏ المحذودية الشديذة لقدرات ذاكرة تلك الحاسبات de y‏ (تراوحت بين ثائية 
آلاف كلمة إلى خمسة وستين آلف كلمة كحد أقصى) مما يعنى أن كل obs JI‏ 
العاملة وبياناتها في آن واحد Als a ee cod lesa‏ 
وكان حيز الكلمات الرقمية التي تستخدم لتمثيل عناصر المعلومات - ومنها 
الحروف - ضيقة tie‏ بدأت بأربعة أرقام ثنائية وهو ما يسمح فقط بستة 
عشر رمرًا ختلمًا (اثنين مرفوعة لأس أربعة) وفي وقت JU‏ وصل حيز الكلمة 
الرقمية إلى ستة أرقام ثنائية Ut‏ يسمح فقط بأربعة وستين رمرًا (اثنين مرفوعة 
لأس ستة)» وهذا بالكاد يستوعب الرموز المطلوبة للغة واحدة (كالإنجليزية 
Ga‏ إضافة إلى رموز تحكم ضرورية أخرىء ما يعني صعوبة استيعاب أكثر من 
لغة معًا في آن واحد. 
۲. ارتباط البرمجيات (السوفت-وير) É pàs‏ واعتمادها مباشرةً على عتاد (هازد- 
وير) تلك الحاسبات وتشكيله معًا منتجًا واحدًا تقوم بتصنيعه نفس الشركة« 
وبالتالي فإن تغيير لغة تفاعل تلك البرمجيات كان يحتاج إلى تعديل المنتج وخط 


تلات 
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إنتاجه. فإذا كان للشركة المنتجة وقتها أن تدعم عدد س من اللغات فإنه كان 
عليها أن تقيم وتدير س من خطوط الإنتاج لما تبنيه من حواسب بعتادها 
وبرمجياتها وهو أمر ليس باليسير. 
۳. انغلاق أنظمة هذه الحاسبات وبتاها أمام المطورين من خارج الشركات المصنعة 
Ut LU‏ جعل من العسير عليهم أن يعدلوا برمجيات تلك الحاسبات. 
مع بداية النصف الثاني من ثمانينات القرن العشرين الميلادي وقعت تطورات هامة في 
عالم الحاسبات الصغيرة حيث صارت المشغلات الدقيقة بكلمات يبلغ حيزها ثانية أرقام 
ثنائية هى السائدة مقابل أسعار Jas‏ وبدأ خطان متوازيان في صناعة الحاسبات 
الصغيرة؛ فنشأت شر كة CApple) ÉD‏ الأمريكية وصنعت حاسبات SUN‏ 
الصغيرة بنظام تشغيل متماسك «ماك-أو-إسٌ» يفصل الارتباط العضوي بين العتاد 
وبين البرمجيات» كما طورت الشركة برمجيات تميزت في عالم الرسوميات «الجرافيكس» 
وتنسيق المطبوعات وإعدادها للنشر والطباعة فيا عرف وقتها باسم «النشر المكتبي»» 
ونجحت في نقل عالم نشر الصحف والمجلات من عصر الميكنة إلى عصر ال حوسبة» 
وأمكن الاستجابة للطلب على إتاحة هذا النشر المكتبي بلغات العالم الكبرى المختلفة» 
Bl s‏ من سنتين كان النشر المكتبي بالخط العربي متاحًا بصورة جيدة على هذا النوع 
من الحاسبات مدعومًا بسوق الصحافة الخليجية السخى. أما على الخط الموازي AY‏ 
ولكن على نطاق انتشار أوسع كثيرًا طرحت «آي-بي-إم» العملاق الأمريكي في 
عالم صناعة الحاسبات حاسيّها الصغيرٌَ تحت اسم «الحاسب الشخصي» Personal)‏ 
(Computer- PC‏ بسعر P olds‏ وألقت وراءه ثقلها إدراكًا منها أن مستقبل سوق 
الحاسبات سوف تسيطر عليه الحاسبات الصغيرة وليست العملاقة. وحقق هذا النوع 
من الحاسبات الذي كان يعمل على مشغلات دقيقة من شركة «ep‏ بكلمات يبلغ 


Y‏ كانت هناك أيضًا في ذلك الوقت مشغلات دقيقة بكلمات يبلغ حيزها ستة عشر رق SU‏ لكنها باهظة الثمن كانت 
تبنى عليها حاسبات أرفع lol‏ تستخدم في تطبيقات متخصصة لكنها باهظة الثمن كانت يسمى كل منها "محطة عمل 
."Work Station‏ 

؟- الماكينتوش نوع من التفاح المنتشر في أمريكا الشمالية. 

۳- كان يمكن شراؤه بأقل من ألف وحمسمئة دولار أمريكي في حدود عام ۱۹۸۷م انخفضت لا دون الألف دولار 
أمريكي بنهاية ذلك العقد. 


—-YN-— 
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حيزها ثانية أرقام ثنائية نجاحًا Wla‏ وبيعت منه ملايين الوحدات» وكان من أسباب 
نجاحه تزويده بنظام تشغيل «دُوسٌُ») (DOS)‏ من شركة «مايكروسوفت» حيث كان 
نظامًا مفتوحًا كرس مبداً الفصل بين تطوير البرمجيات وبين تصنيع العتاد في مثل ذلك 
النوع من الحاسبات الصغيرة فسمح بذلك للمطورين من خارج كلتا الشركتين بتطوير 
برمجيات هذه الحاسبات. وضمن هذا المناخ شرعت شركات عربية في محاولات إنتاج 
برمجيات عربية لتلك الحاسبات وشرعت أخرى في محاولة تعريب بعض البرمجيات 
الشهيرة ولاقت تلك المحاولات نجاحًا أثبت أن التعريب أمرٌ ممكن. 


وبعد عام ۱۹۹۰م حين طرحت «مايكروسُوفت» نظام تشغيلها «ويندوز - الإصدار 
٠, Y‏ بواجهة تشغيل رسومية ارتفعت موجة انتشار الحاسبات الشخصية لتشمل كل 
نواحي العالم تقريبًا ولتحتكر «مايكروسوفت» سوق أنظمة التشغيل هذا النوع من 
الحاسبات الذي كانت إمكاناته الحاسوبية بحلول ذلك الوقت قد ارتقت كثيرًا ما دفع 
«مايكروسوفت» لطرح ملحقات لنظام تشغيلها تدعم لغات العام المختلفة ومن بينها 
العربية سواء في واجهة استخدام نظام التشغيل أو في برامجها المكتبية - خاصة برنامجها 
الأشهر لكتابة الوثائق وتنسيقها 5559 | عرضًا على الشاشة وطباعة على الورق. 
وبطبيعة ا حال لم يخل الأمر في البداية من بعض المشكلات والمنغصات الحامشية التي 
أخلت MP MC,‏ مع الإصدارات التالية المتلاحقة لنظام التشغيل «ويندوز». 

والآنء وبعد شيوع معيار «التظام ا مرحد لشفرات 2-1 , 3 (Unicode) t‏ ذي الستة 
عشر ELG‏ لتمثيل النصوص والذي يتسع لحروف معظم لغات العا المعاصرة واسعة 
التداول (ومن بينها العربية بالطبع)» فإن الحرف العربي مدعوم بسلاسة وبشكل تلقائي 
ادون الحاجة لتنصيب ملحقات - على كافة أنواع الحاسبات تقريبًا سواءً أكانت الأجيال 
المتقدمة من الحاسبات الشخصية وصولا إلى الحواسب الكفية المدمجة مع الأجيال الحديثة 
من ال هواتف النقالة» وغير ذلك من الأصناف المتعددة للحاسبات. 

وتجب الإشارة في ختام هذا الاستعراض التاريخي إلى أن ميكنة وحوسبة الخطاطة 
العربية كانت كلتاهما وما زالتا تتعاملان في مسارهما الرئيسي أساسًا مع الخطوط العربية 
المتتظمة» ونعني بها تلك الخطوط التي تنساب كتابتها في اتجاه واحد؛ وهو الاتجاه أفقيًا 
من اليمين إلى اليسار» وفي نفس الوقت تسمح برسم أي نص عرب عبر انتقاء سلسلة 


cA 
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من الوحدات التي تنتمي إلى فئة مغلقة من الوحدات الرسومية «الجرافييات». وفي حين 
e E BL] Op ci jl Je al aas Ci all Ln o‏ اسم 
خطوط النسخ البسيطة (راجع الشكل رقم ١‏ -0) هي محل التركيز الأكبر هذه الصناعة. 


J تحديات الخطاطة العربية التي تواجه التعرف عليها‎ -Y 

بعد الاستعراض التاريخي لنشأة الخطاطة العربية ثم ميكنتها وحوسبتهاء نقوم في 
يلي بالتدقيق في بعض تفاصيل هذه الخطاطة التي تشكل تحديات ينبغي على أي نظام 
ناجح للتعرف الآلي على النص العربي المكتوب أن يعالجها بفعالية. 


. اتصال الحروف: يمكن كتابة اللغات الأوروبية بحروف منفصلة (وهى السائدة 


في النسخ والطباعة لبساطتها) أو بحروف متصلة (وتستخدم كثيرًا عند الكتابة 
بخط اليد)» في حين أن لغات أمم كبرى في أقصى شرق آسيا (كالصينية واليابانية 
والكووية) خط L ls‏ ف c az‏ أما اللتطاطة ال ية (ويشتاركها فى ذلك 
البنغالية وال هندية) فتكْتّب Gla‏ با حرف المتصل. 


ومن وجهة نظر أية آلية حاسوبية للتعرف على الأناط الرسومية» فإنه مع 
تثبيت جميع الظروف الأخرى يكون التعرف على الأناط وهي منفصلة أيسر 
من التعرف عليها وهي متصلة ببعضها البعض» حيث يتوجب في حالة 
الاتصال حل مسألة تعيين حدود كل رمز رسومي «جرافيم» (وهو ما يطلق 
عليه الباحثون في هذا المجال اسم «التقطيع» ((segmentation)‏ إضافةً بالطبع 
إلى مسألة «التعرف» (recognition)‏ على الحرف الذي يرمز إليه كل جرافيم 
وكا يمكن استشفافه من الشكل رقم )۷-١(‏ أدناه» فإن التعرف الصحيح على 
الرموز يتطلب تعيين حدودها بشكل سليم» ولكن تعيين هذه الحدود بدوره 
يتطلب معرفة الرموز أولا! 


Z- 
A 


وهكذاء فإنه لا مفر من حل كلتا المسألتين («التعرف» و «التقطيع») | pA]‏ 
E‏ ال QUE‏ 
عن أساليب تحقيق ذللك. بقى أن تكد ثائية عل أن اطوط ia aJ‏ المتنظمة 
حسب اترا الذي cadi aal‏ السابق هي تلك التي ons‏ تن 


-yg 
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حدود وفواصل واضحة بين جرافياتها بيدا لا يمكن عمل ذلك مع الخطوط 
غير المتتظمة؛ مثل تلك الزخرفية (راجع شكل رقم ٤-١‏ أعلاه). 


Az di‏ وسيلة أساسية لتبادل الحضارات بين الشعوب على مر العصور 
الشّكل :۷-١‏ الاتصال الأفقي بين الحروف المتتالية في خطوط النسخ وتعيين حدوده. 

Y‏ التداخل بين حدود الحرافميات: مما يزيد من التحدي السالف عرضه في 

النقطة السابقة أننا نرى أحيانًا بعض التداخل (أو التراكب) الطفيف بين حدود 

coe a‏ بعض الخطوط العربية المنتظمة كا يمثل له الشكل رقم CA D‏ أدناه. 


الشكل A Y‏ مثال على التراكب بين الحروف المتتالية. 


للكتابة متصلة الحروف» ويؤدي هذا التغير إلى زيادة كبيرة عدد الرموز 
الرسومية التي يتوجب أن يتعامل معها أي نظام للتعرف JYI‏ على النص 
العربي المكتوب بالمقارنة مثلاً مع اللغات الأوروبية التي LË‏ عند طباعتها عادة 
ومن وجهة نظر أية آلية حاسوبية للتعرف على DEYI‏ الرسومية» فإنه مع تثبيت 
جنيع الظروف الأخرى يكون التعرف أكثر دقة كلما قلت عدد الأنماط الرسومية 
الخ وان الک 


z] سكا‎ 


الشّكل :4-١‏ مثال على اختلاف رسم الحرف العربي مع اختلاف موقعه من الكلمة. 


امات 
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4. الجرافييات ASA‏ من أكثر من حرف واحد: الكثير من خطوط النسخ 
سكديا تلان بك حر ا رطاف اك ب تعر لودل ينها 
LS PUE‏ به هذا الكتاب) تحتوي على العديد من الجرافييات المركبة من 
حرفين أو ثلاثة (والتي لا يمكن التعامل معها إلا كوحدة رسومية واحدة)» 
ويبين شكل رقم CY 7 D‏ أدناه أمثلة على بعض هذه الجرافميات المركبة. 
وعلاوة على ما أشرنا إليه في النقطة السابقة» فإن هذه الجرافييات المركبة ترفع 
عدد الآناط الرسومية التي يتوجب على أي نظام للتعرف على النص المكتوب 
التعامل معها Ut‏ يرفع درجة الصعوبة» وإذا كانت الخطاطة الإنجليزية | على 
سبيل المثال - في هذا الصدد قد تكتفي بحوالي ثمانين جرافيًا فإن العربية تحتاج 
إلى ما يزيد على مئة وتسعين. 


الشكل :٠١-١‏ أمثلة على جرافيمات مركبة من أكثر من حرف في أحد خطوط النسخ. 

ه. التقط: كلما كانت الفروق الشكلية بين BEYI‏ الرسومية أكبر» فإنه مع تثبيت 
جميع الظروف الأخرى ترتفع قدرة أي نظام للتعرف QVI‏ عليها. las‏ أن نسبة 
كبيرة من جرافيمات الخطاطة العربية متشابهة شكليًا إلى حد بعيد ولا تتمايز إلا 
بوجود أو غياب النقاط - أو ال همزة في بعض الأحيان | op‏ ذلك بالتأكيد يرفع 
التحدي أمام أي نظام للتعرف الآلي على النص العربي المكتوب. 


الشّكل :١1-١‏ أمثلة على مجموعات الحروف العربية التي تتمايز بالنقاط. 

5. علامات الضبط الصوتي (التشكيل): تعتبر علامات التشكيل في الخطاطة 
العربية تعقيدًا إضافيًا أمام أي نظام للتعرف JYI‏ على النص العربي المكتوب 
وذلك e‏ لاتقع d‏ مياق il ele‏ مكل الجرافييات igi‏ ولكنها في 
مواضع رأسية فوقها أو تحتها S)‏ يبين شكل رقم ١١-١‏ أدناه). 
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ولذلك OU‏ مثل هذه الأنظمة تتعامل مع علامات التشكيل إما بمحاولة 
اكتشافها مبكرًا ثم حذفها قبل عملية التعرف على النص المكتوب» أو 
بتجاهلها على اعتبار أن الكتابة العربية المعاصرة نادرًا ما تضاف إليها هذه 
العلامات إلا لأغراض تعليمية أو عند اقتباس النصوص الدينية أو التراثية. 
A‏ عام UNILATERAL E‏ 3.20 
Asc i‏ وسيلة أساسية 303 الحضارات بين الشعوب 


الشكل Y Y- Y‏ : مثال على عبارة عربية بعلامات الضبط الصوت الكامل. 


ما 
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OO‏ 


الميبحث الثاني 
أنواع MET Ty ١‏ 
على النص العَرَبِيٌ المكتوب 


اتسيف leti s SE bl‏ مو agli‏ حاون 
-Y‏ تطبيقات التعرف JYI‏ على النص العربي المكتوب. 


امات 


هذه الطبعة إهداء من المركز 
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-Y£í- 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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Su mu dec Le die adl 
bolo E vol uli e الي الكتابة ومن‎ (X2 Ty 
أدناه:‎ CY - D إنتاج الكقابة المستعيدفة وذلك وَفْقٌ الملخطط الذي يلخصه الشكل رقم‎ 


الشكل :٠١-١‏ تصنيف أناط إنتاج الكتابة حسب التعامل معها حاسوييًا. 


لالحا رج SRO‏ 
E‏ حابي ET‏ . لخ» ويتم هذا التعقب عبر تعبين والتقاط الموضع النسبي لليد 
de‏ اللوح الحساس Lui‏ كل Vaat‏ وإرسايها إلى ذاكرة الحاسب ويشكل QU‏ هذه 
اللقطات التمثيل C EAJ‏ للكتابة اليدوية كا يبينه الشكل رقم C £7 V)‏ أدناه» وهو ما 
يسمح بتكوين «المنحنيات المناظرة لمسار الكتابة) (Writing Contours)‏ وهي المعلومة 
الأساسية في عملية التعرف على هذه الكتابة. 


-١‏ أي تحويلها من حالتها الأصلية «التناظرية cAnalog‏ إلى الحالة «الرقمية (Digital‏ من أجل إدخاها ومعالجتها بواسطة 
الحاسبات الرقمية. 


olet‏ اليه ete‏ رص عد كات بن اللقطات ارقم ا لاس edes‏ يضمن 
SEE‏ سسا للكتابة لا تفقد فيه تفاصيل حركة اليد. 


—-Yo- 
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الشّكل £V‏ : مثال على رقمنة الكتابة اليدوية أثناء كتابة كلمة «العبارة) 
وتمثل العقد الصغيرة مواضع اليد عند اللحظات التي جرى تسجيلّها. 
وقد تكون الكتابة اليدوية تدويئًا مسترسلاً بحروف متصلة كما في الكتابة العادية 
الحرة (كى) في شكل رقم ١5-١‏ عاليّه) وهي ا حالة الأصعب في التعرف عليهاء أو تكون 


مجرد حروف أو علامات منفصلة وهي الحالة الأيسر في التعرف dle‏ و اول تحن 
التطبيقات المتصلة بكلتا الحالتين في القسم التالي. 


وعلى الناحية الأخرى هناك الصفحات المحتوية على نصوص مكتوبة بالفعل» 
حيث يجري تحويل J‏ من هذه الصفحات إلى (صورة رقمية) (Digital Image)‏ عبر 
جهاز «الماسح الضوئي» (Scanner)‏ وني هذا الصدد OYI A gi‏ بالمعيار الأوسع y S‏ 
لعملية المسح الضوئي بتباين أحادي اللون (بالأبيض والأسود) وبتحليل طولي يساوي 
ستمئة نقطة في y JS‏ 2 طولية (أي ثلاثمئة وستين call‏ نقطة في البوصة المربّعة) ?£9 

;38 كوك nudi‏ الس Se‏ فون مك s‏ الد الي سورك ess]‏ كان 
مسترسلة بحروف متصلة LS)‏ يبين الشكل رقم ١5-١‏ أدناه مثالاً على ذلك) وهي 
الحالة الأصعب في التعرف عليهاء أو تكون مجرد حروف أو علامات منفصلة وهي 
الأيسر في التعرف عليهاء ونأتي على 53 بعض التطبيقات المتصلة بكلتا الحالتين في 


edt ea 


Y‏ - البوصة تساوي Y , ٩٤‏ سنتيمترًا تقريبًا. 
-Y‏ كان المعيار السابق هو ثلاثمئة نقطة في كل بوصة طولية (أي تسعين ألف نقطة في البوصة المربّعة). 


Eu 
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الشّكل :١15-١‏ مثال على الصورة الرقمية الناتجة عن المسح الضوئي لصفحة تحتوي على كتابة بخط 
اليد وتمثل محتويات كل مربع صغير إحدى نقاط هذه الصورة الرقمية 
وعلى الناحية الأخرى قد يكون النص في الصفحة الممسوحة ضوتيا مطبوعا (S)‏ 
يبين الشكل ١5-١‏ أدناه مثالاً على ذلك) ويتصاعد تحدي التعرف على النص عندما 
تتعدد الخطوط (الأبناط) المستخدمة في طباعته e‏ إذا كان مطبوعًا بخط واحد فقط. 


العدل أساس املك 


الشّكل :١١-١‏ مثال على الصورة الرقمية الناتجة عن المسح الضوئي لصفحة تحتوي على نص 
مطبوع» وتمثل محتويات كل مربع صغير إحدى نقاط هذه الصورة الرقمية 
وبصفة عامة فإن التعرف الآلي على النصوص المخطوطة يدويًا أصعب كثيرًا من 
التعرق عل التضوضن المطبوعة» وتتتاول coU dal ARS‏ المنصلة بكلا الخالتين 


في القسم التالي. 
-Y‏ تطبيقات التعرف الآلي على النص العربي المكتوب 


تكتسبُ تقنية التعرف الآلي على النص عبر تعقب حركة اليد أثناء الكتابة أهمية 
ساف کار Gita‏ تتناسب مع الانتشار (p‏ للأجيال الجديدة من الهواتف 
الذكية التى يحتوي معظمها على شاشات حساسة لِلمُس وكذلك انتشار «الحاسبات 
اللّوْحية) ol kesy (Tablet Computers)‏ شاشات حساسة Wu‏ وذلك 
حيث أن هناك SEA‏ إلى استبعاد لوحة المفاتيح من تصميم هذه الأجهزة واستخدام 
اللمس بالأصابع أو بقلم خصوص للتفاعل معها وإدخال البيانات إليها. ويتفاوت 
التحدي في التعرف على هذه البيانات بدءًا من لمس أحد الخيارات المتعددة» مرورًا 
بكتابة محرد علامة أو حرف أو رقم منفصل» وصعودًا إلى الكتابة الحرة المسترسلة 
بحروف متصلة. ويلاحظ أن برمجيات التعرف على هذه الأنواع من البيانات غالبًا 
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ما تحتوي على col sl‏ مساعِدة للمستخدم تمكنه من التحقق من صحة التعرف على 
ما يكتبه والتدخل لتصويبه عند اللزوم» بل تحتوي SES‏ هذه البرمجيات أحيانًا آلياتِ 
تدقيقٍ إملائي لتوجيه عملية التعرف أو لتصويب ما جرى التعرف عليه من LLS‏ 
عربية مسترسلة بحروف متصلة» کا آنا تتضمن col esl‏ «للتكيف) (Adaptation)‏ 
بع كط اعفد ا للارتقاء بأداء التعرف على 
هذا النوع من الكتابة إلى مستوّى 2 (S2‏ المستخدم. [A «V c£]‏ 

Sa?‏ - إضافة إلى ما سبق - الإشارة إلى التطبيقات التعليمية والتربوية لهذه 
x‏ من برغيات اعرف E‏ عل edid asm uo adl‏ فق المساعدة de‏ ل 
كتابة اللغة للنشء أو للكبار أو على تحسين الخط؛ حيث تعرض مثل هذه البرمجيات 
مسارات الكتابة اليدوية النموذجية لأمثلة من النصوص وتطلب من المستخدم أن 
يسبع هذه المسارات بقلم خصوص ف يده عل لوح حساس للمس أثناة مرحلة 
التدزّبِء كا يُطْلَبِ أثناة مرحلة تقويم الأداء من المستخدم أن يخط على اللوح 
الحساس أمثلة نصيةء ومن نَّمَّ تقوم هذه البرمجياتٌ بمقارّنة مسارات الكتابة اليدوية 
للمستخدم مع المسارات النموذجية لكتابة أمثلة التدريب أو تقويم الأداء ويناءً على 
نتيجة المقارّنة يفاد المتعلم بالتصحيحات المطلوبة لتحسين أدائه EVI‏ 

أما على جانب تقنيات التعرف على الكتابة المسترسلة في الصفحات الممسوحة 
ضوئيًا سواء أكانت مخطوطة باليد أم مطبوعة» فإن التطبيق الأساسي ها هو العمل 
على الرقمنة الآلية لتراث البشرية الضخم من المواد النصية الموجودة بالفعل على 
الأوراق”" مقابلٌ تكلفة مالية وزمنية وإدارية أقل كثيرًا مما يستغرقه إنجازٌ تلك 
الرقمنة بأيادي جيوش من «الضاربين على لوحات المفاتيح» (Typists)‏ وتوفر 
رقمنة هذا التراث النصي مزايا كبرى تتمثل في: 


-١‏ من أمثلة المشروعات الكبرى في هذا الصدد «مشروع رقمنة المليون كتاب» الذي تقوم عليه شركة «جوجل»؛ انظر 
المرجع رقم EY]‏ من مراجع هذا المبحث. 


EX 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o EN‏ ^ 


.١‏ إمكانية المحافظة على الوثائق إلكترونيًا بتكلفة ضئيلة جدًا بالمقارنة مع تكلفة 
حفظها OG s‏ ولمدة أطول بكثير من عمر هذه الوثائق في صورتها الورقية 
يمكن أن تصل إلى ما شاء الله؛ حيث يمكن نقل الوثيقة من وسيط QUE‏ 
Das]‏ قديم إلى آخر جديد دون فقدان أي شيء من lel gt‏ قبل انتهاء 
العمر الافتراضي للوسيط القديم» وباحتمالات ضياع متضائلة إلى ما شاء؛ 
حيث يمكن استنساخ الوثيقة إلكترونيًا عددًا غير حدود من المرات على وسائط 
id pian‏ في أماكن Oa‏ 

ال يودي ريل IE‏ إلى Rel; apo‏ عر uoce‏ ونا ف حويلها بعد 
ذلك إلى نصوص رقمية عبر تقنيات التعرف الآلي على النصوص إلى إمكانية 
تشغيل تقنيات معالجحة النصوص على محتويات هذه الوثائق وخصوصًا 
تلك التي تستخلص المعلومات وتستنبط المعرفة من الأوعية النصية؛ ومن 
Br RI‏ البحث النصي» (Text Search Engine)‏ و«استرجاع 
البيانات») (Information Retrieval- IR)‏ فضلاً عن «التنقيب المعلوماتي 
في النصوص)» (Text Mining)‏ وكذلك «تصنيف Document) (35 Jl‏ 


(Document) Summarization (eses; (Classification‏ وقد 


Y‏ - بأسعار نهاية عام 7١١١م‏ يتكلف القرص الصلب الخارجي سعة تخزين واحد Vai‏ (مليون مليون) بايث حوالي خمسين 
دولارًا أمريكيًا وبافتراض أن الكتاب متوسط الحجم يحتاج سعة مئة Usa‏ (مئة مليون) بايت لتخزينه بم فيه من صور 
بدرجة عالية الجودة وبعمر افتراضي لا يقل عن خمس سنوات تحت ظروف قاسية» فإن هذا القرص يسع لتخزين 
لعشرة آلاف كتاب وهذا يعني أن الكتاب الواحد يتكلف نصف سنت أمريكي. وعلى الجانب الآخر فإن المتر المربع 
السطحي في غرفة مكتبة مجهزة على مستوى جيد يتكلف في نفس التاريخ ما لا يقل عن مئتين وخمسين دولارًا في العام 
ويسع ما لا يزيد عن ألف كتاب من نفس الحجم وهو ما يعني أن الكتاب الورقي يتكلف تخزينه لمدة مس سنوات في 
حالة جيدة حوالي مئة وخمسة وعشرين سنتا أمريكيًا أي مئتين وخمسين ضعف التكلفة الإلكترونية. هذا مع ملاحظة 
أن تكلفة الحفاظ على المخطوطات التاريخية تتجاوز ذلك بكثير نظرًا لاحتياجها إلى تجهيزات خاصة تحافظ على مادتها 
dios‏ مع مرور الزمن. 

Y‏ 7 من الإنصاف أن ننتبة إلى قضية التحقق من «أصالة CAuthenticity‏ الوثائق الرقمية حيث لا توجد حتى الآن - رغم 
الأبحاث الجارية على هذه المسألة - وسيلةٌ حاسمة للتأكد من عدم التلاعب إلكترونيًا بمحتويات الوثيقة المرقمنة 
سوى المطايّقة بجسم الوثيقة الأصلية! 

BÍ سواها) إلى اكتشاف‎ el آليات التنقيب المعلوماتي بصفة عامة في أي وعاء للبيانات (سواء أكانت نصوصًا‎ aus Y 
ينبئ عن احتمال قوي لوجود معلومة يعبر عنها هذا النمط أو‎ Ut التكرار والارتباط السائدة بين مفردات هذه البيانات‎ 
خام قليلة الفائدة) إلى معلومات (عالية القيمة).‎ aS) لتحويل البيانات‎ E a l لذلك‎ Sa ذاكء‎ 


Em 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
| ييا 


É cá‏ هذه التقنيات مع أدوات أخرى تقليدية لإدارة البيانات والمعلومات 
ضمن أنظمة متكاملة eaa‏ على تسميتها في المجْمَل ١نْظم‏ إدارة الوثائق» 
.(Document Management Systems- DMS)‏ 
LY‏ ومن LAYI‏ بمكانٍ فيا يتعلق برقمنة نصوص الوثائق أن نضع الأداء البشري 
على حك المقارّنة بمستويات الأداء الراهن لتقنيات التعرف VI‏ على النصوص 
العربية المكتوبة من الوثائق الممسوحة ضوئيًا. فالضارب المحترف على لوحة 
المفاتيح يستطيع في المتوسط ecd‏ حوالي ستين كلمة عربية في الدقيقة الواحدة 
بمعدل خطأ للكلمات (Word Error Rate: WER)‏ لا يتجاوز الثلاثة في المئة 
كما EKE‏ من خلال مراجعةٍ يدوية النزول بمعدل الخطأ للكلمات إلى ما دونَ 
النصف في ال ئة“ ومع متوسط أجور لهذا النوع من العمالة - بمعدلات نهاية 
عام ١١١5م‏ - يبلغ نحو ذُولارَيْنَ أمريكيين في الساعة فإن التكلفة الزمنية 
لرقمنة ألف كلمة بجودة عالية تكون في حدود نصف ساعة عمل كما تكون 
التكلفة المالية لذلك في حدود دولارَيْن Dea pid‏ 
أما cuu‏ التعرف الآلي على النصوص ؛ فإن التكلفة الزمنية ليست عائقًا 
حت كفل با B‏ من التسارع AC‏ لقدرات الأجيال المتعاقبة من 
«المعالجات الدقيقة» (Microprocessors)‏ الى Jes‏ الحاسبات 
S cial‏ إمكائية زم برعة التعرف عل التصوض بالقدر الطلرب 
عبر أي من البتى المتعددة للحوسبة (Distributed Processing) (àe 5 AD‏ 
أو «المتوازية» (S. .XParallel Processing)‏ أن التكلفة المالية كذلك 
ليست Ule‏ حيث أنه مهما ارتفعت تكاليف البحث والتطوير والتشغيل 


-١‏ هذا بافتراض حار الوثيقة الجاري نسخها - سواء أكانت مطبوعة أم مخطوطة باليد - من التشوهات أو الشوشرة 
البصرية العالية التي تؤدي إلى الالتباس في قراءة المحتويات النصية ها 

-Y‏ هذا بافتراض العمل على كميات ضخمة من النصوص ضمن خط إنتاج تتوازى فيه عمليتا النسخ والمراجعة. 

۳- وذلك is‏ ما يرف ابقانون مُورْ Moore's Law‏ وهو عبارةٌ عن استقراء عملي لواقع تطور الحواسيب مع الزمن 
وينص على تضاعف القدرات الحاسوبية - من معاجّة وتخزين ... إلخ - مرةً كل ثانية عشر شهرًا تقريبًا. 

Gy -é‏ كانت البنية المورّعة أو المتوازية OP‏ المبدأ البسيط Lafl yg‏ هو تشغيل حواسيب عديدة بدلاً من حاسوب واحد فقط 
من أجل الانتهاء من نفس المسألة في زمن أقل.. 


£) 
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لأي نظام ناجح للتعرف الآلي على النصوصء فإن تكلفة التعرف على كل 
ألف كلمة تتضاء ءل باطراد في تناسب عكسي مع إجمالي النصوص التي جرى 
لتشغيل عليها. ويبقى GI‏ ى الحقيقي متمثّلاً في دقة التعرف J odd‏ 
حيث يعرض الجدولٌ رقم (۱-۱) أدناه هوام الخطأ للكلمات المقيسة 
لأفضل ما جرى تطويرٌه من أنظمة التعرف JI‏ على النصوص العربية 
٠١ (8 Y]‏ آ ني ظل مستوياتٍ متدرّجةٍ من جودة الصورة الممسوحة ضوئيا 
وكذلك في ظل مستوياتٍ متدرجة من التنوع في الوحدات الرسومية للكتابة 
(أي «الجرافييات»)؛ ومن الواضح أن هامش الخطأ يتسع باطراد مع تصاعد 
مستوى «الشوشرة)» (Noise)‏ البصرية التي تشوب الصور كا يتسع هذا 
المامش مع تزايد التنوع والتباين في جرافيمات الكتابة. 

f‏ . وتفيد الدراسات التى حللت أداء تقنيات استخلاص المعلومات واستنباط 
المعرفة - المشار إليها في الفقرة ب e‏ - عند تشغيلها على أوعية بها انصوص 
متدهورة») T) (Degraded Text)‏ نصوص معيبة ذات نسبة BE‏ من 
الأخطاء) أن مردود هذه التقنيات يظل فعالاً إذا لم تتجاوز نسبة التدهور الخمسة 
عشر في Lo]‏ (وترفع بعض الدراسات هذه النسبة إلى عشرين في M‏ مع 
ملاحظة أنه بعد إجراء عملية استخلاص المعلومات أو استنباط المعرفة التى 
SS‏ الواردة في نتائج العملية المطلوبة على 
هيئة الصورة الضوئية الممسوحة —3 ui S3‏ نسخة DUM‏ - وليس على هيئة 
النص الرقمى الذي جرى CENE‏ لاحتوائه على نسب الأخطاء فى à‏ 
الكلرك eL Ls‏ 

وعلى ذلك co NU op‏ المظللة بالرمادي في الجدول هي فقط التي تصلح 
لتطبيق تقنيات استخلاص المعلومات واستنباط المعرفة عليها بفعالية 
Alea‏ 


-١‏ في حين يزعم بعض الباحثين أن أداء مثل تلك التقنيات قد لا ينهار بالكامل حتى مستوياتٍ خطأ عشوائية للكليات 
تبلغ الخمسين في Hl‏ 


E 
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٠‏ طباعةليزر أو | صفحات | نسخ ضوئي | نسخ ضوئي مرتين 
e‏ الحودة وثيقة أصلية کتب لمرة واحدة أو صفحات جرائد 
KKKK‏ | جاو جو جاو *o‏ * 
وحجم واحد AN AP‏ 4 حوالي 7/١١‏ 
* 
مطبوعة بمختلف b phl‏ 
والأحجام o JM Zw‏ أكبر من LEO‏ 
جا جاو جاو 
EAE‏ عب | SUUM‏ 
aLa)‏ 5 
l RR‏ على x‏ الوق أكون 
خط Jor SSI‏ 
/No ٥ z kk‏ 
AC‏ 


الجدول :١-١‏ هوامش الخطأ المقيسة في أداء أفضل ما جرى تطويره - حتى le‏ ١١١٠م‏ - من 
أنظمة التعرف SI‏ على النصوص المكتوبة في صفحات ممسوحة S eo‏ وذلك في ظل ظروف 
متدرجة من جودة الصور الممسوحة y G gob‏ وكذلك التنوع في جرافيمات الكتابة. 

eus .5‏ تزال محرّجاتٌ التعرف JYI‏ على النصوص العربية المخطوطة باليد 
في كل الحالات خارج إطار الاستفادة من تقنيات استخلاص المعلومات 
واستنباط المعرفة نظرًا للاتساع الكبير في هامش الخطأ بهاء Op‏ تركيز الأبحاث 
التطبيقية في هذا الصدد يتركز على إنجاز تطبيقات ضيقة النطاق؛ إما من جهة 
التقيد بحصيلة لغوية محدودة e‏ تحصر البحتٌ داخل edd‏ التعرف وتكفي 
لهام مثل التعرف على عناوين البريد أو قوائم مختصرة بأصناف سلع ... إلخ» 
أو من جهة التقيد بالرموز والأرقام والعلامات والحروف المنفصلة في مهام 
مثل تصحيح الاختبارات الموضوعية أو قيمة الصكوك النقدية (أي «الشيكات 
(Checks /Cheques‏ ... إلخ. 


ماوت 


هذه الطبعة إهداء من المركز 
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المبحث الثالث 
أساليب GAYI CR La‏ على Sa‏ 
العربيٌّ المكتوب 


BIYI التعرف على النص المكتوب كأحد أنظمة التعرف على‎ - ١ 

؟- أساليب التعرف على الكتابة العربية بتعقب خط اليد. 

۳- أساليب التعرف على الكتابة العربية المطبوعة. 

- أساليب التعرف على الكتابة العربية المخطوطة يدويًا. 

ه- بناء الموارد اللغوية لتدريب وتقويم أنظمة التعرف على الكتابة العربية. 


-gý 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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هذه الطبعة إهداء من المركز 
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DEYI التعرف على النص المكتوب كأحد أنظمة التعرف على‎ -١ 

تنتمي أنظمة التعرف الآلي على النص المكتوب إلى جال أرحب من علوم الحاسبات 
التطبيقية ألا وهو «التعرف JYI‏ على الأنماط» (Pattern Recognition)‏ ويمكن وضع 
الهميكل الوظيفي eJ‏ النظم في الإطار العام المبين في الشكل رقم )١۷-١(‏ أدناه «D‏ 
حيث يتم dud‏ «الإشارات التناظرية» (Analog Signals)‏ المقابلة للأنماط المطلوب 
التعرف عليها (وهي النصوص المكتوبة/ المخطوطة في حالتنا هذه) إلى «إشارات 
رقمية» (Digital Signals)‏ - كما ورد خلال القسم الأول من المبحث السابق - ومن 
" و الحاسوب بهاء ثم يجري prr‏ ابتدائي» oib (Preprocessing)‏ الإشارات 
الرقمية (وذلك مثل استبعاد بعض الأنساق النمطية من الشوشرة)» ثم يتم بعد ذلك 
استخلاصٌ بصمات هذه الإشارات (أي مجموعة الصفات الرياضية (à zal‏ 

ويمتاز بعد ذلك مسار التدريب حيث يجري بناء ناذج رياضية (إحصائية غالبًا) من 
بصمات الإشارات المقابلة bY‏ عينات التدريب» ومن ثَمَّ يجري حفظ هذه النماذج 
بكفاءة في قاعدة بيانات لاستدعائها في إحدى آليات التصنيف التى تقرر أي BAI‏ 
هى الأقرب للإشارات المقابلة للأن|ط المدحخلة المراد التعرف عليها. 


ويعكس هذا الإطار نظرية «التعلم الحاسوبي» (Machine Learning)‏ التي 
كأنسب ما يكون من أجل مقارّبة المسائل التي لا يُعْرّف لها أو حيث يتعذر الحصول 
ها على «حلولٍ بقواعد Cloke Bonn Solutions) à, S‏ وتنبثق مختلف أساليب 
التعلم الحاسوبي من مبدأ إمكانية التعلم عبر تكرار التعرض الغزير لكل من الأمثلة 
الصحيحة والأمثلة الخاطئة أو عبر تكرار التعرض الغزير للأسئلة وأجوبتها حول 
جزئيات المسألة المطلوب مقاربتها؛ فالطفل مثلاً قد يجيد قراءة النص المكتوب بلغته الأم 
قبل أن يتعلم أسس وقواعد اللغة وذلك عبر تقليد الأكبر سنا وعبر محاولات الصواب 
والخطأ مع تصويب الأخطاء حيث يتحسن الأداء مع معاودّة ذلك كله مرارًا وتكرارًا. 


—£o- 


هذه الطبعة إهداء من المركز 
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الإهارات التاطرية 
المقابلة uS‏ المراد 
التعرف عليها 


أرجح الأغاط المقابلة 
لاإهارات الدخلة 


الإشارات الحاظرية 
المقابلة لأحاط الدريب 


الشكل 17-١‏ : الهيكل الوظيفي العام لأنظمة التعرف على الأنماط وفق نظرية التعلم الحاسوبي. 

ويرتكز بصفة عامة تفعيل تلك الأساليب رياضيًا وحاسوبيًا هذا المبدأ على استقراء 
السياق الاحتمالي للكلمات وحروفها (المناظرة للأناط التي ندرسها في هذا الفصل) 
Le‏ عن سياقها اللغوي بُعْية الوصول إلى حساب الاحتمال الرياضي لوقوع كل SE‏ 
oe‏ للكلمة بين ما يسبقه وما يلحق به من كلمات ومن ثم ترجيح التعرف صاحب 
أعلى احتهال رياضي» وتستلزم عملية إجراء الحساب هذه تكوين نموذج احتمال رياضي 
يحاكي كل تتابعات الوحدات اللغوية (C5‏ تحدث في الواقع الحقيقي لاستخدام اللغة. 

WP‏ ما كانت الأساليب الرياضية والحاسوبية المختارة لبناء مثل هذا النموذج 
الاحتمالي» فلا o‏ لها من بيانات تجريبية غزيرة تملأ Fleg‏ واسعًا من بصمات الأنماط 
(الأسئلة) بالتوازي مع سلاسل أكواد الأناط المقابلة هذه البصمات (أجوبتها) وذلك 
(o‏ يقتضي التعلم الحاسوبي اموجه ويُطْلّق على عملية تشغيل هذه الأساليب الرياضية 
على محتويات هذا الوعاء من أجل بناء النموذج الاحتمالي اسم «التدريب» (Training)‏ 
كا os‏ على محتويات هذا الوعاء اسم 2952 «(Language Resource) «ud‏ 
وبطبيعة الحال OB‏ النموذج الاحتالي سوف يحمل الخصائص الإحصائية للمورد 
اللغوي الذي تَكَوَّنَ منه» والذي عليه بدوره أن يحمل الخصائص الإحصائية والسياقية 
SU‏ الذي يعبر عنها كما سنتعرض إليه في القسم الخامس من هذا المبحث. 

Aa,‏ المكوّنات الثلاث التي تميز (el‏ نظام بعيّنه للتعرف على o INI‏ سواه ضمن 


وت 
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هذا الإطار هي تلك التي تقوم باستخلاص بصمة الإشارة» وببناء gole‏ رياضية 
للأنماط» وبالتصنيف الآلي للبصمات المستخلصة من أجل تقرير أقرب الأناط المقابلة 
uu‏ 

وسوف يلوح n‏ من الأقسام الغلاثة التالية باختصار إلى أنجح المقارّبات 
Vidadi‏ لتتفيذ كل من هذه المكونات الثلاث في كل حالة من الحالات الثلاث 
الرئيسية لتقنيات التعرف على الكتابة كما صنفها القسم الأول من المبحث السابق. 


- أساليب التعرف على الكتابة العربية بتعقب خط اليد 
تحققت أفضل النتائج خلال العقدين الماضيين في التعامل مع هذه المسألة عبر 
المعالحات الرياضية وفق إحدى HY «og‏ منهجية (ناذج ماركوف المخفية») 
(Hidden Markov Models: HMM)‏ وهي ما Co‏ عليه في القسم التالي» وكذلك 
منهجية (الشبكات العصبية الاصطناعية» (Artificial Neural Networks)‏ التي تستلهم 
آليات عمل الخلايا العصبية الحقيقية من حيث الاستثارة والاستجابة وارتباطاتها dU‏ 
شبكات كنيفة سيت تقوم كل من هذه الشبكات العضيية الاصطناعية بدور الدالّة (أي 
العلاقة) الرياضية التقريبية التى تربط بين المحلات (وهى هنا الحروف) إلى الظاهرة/ 
النظام/ العملية IS‏ الدراسة (وهي هنا عملية الكتابة ix d al‏ خط اليد) وبين 
الملاحظات المرصودة نتيجة هذه العملية (وهي الكتابة المرقمّنة - كا ورد توصيفها في 

القسم الأول من المبحث السابق - و/ أو Oa ata as‏ 
ويرف العديدٌ من أنواع هذه الشبكات العصبية الاصطناعية التي تلاقم كل منها rb‏ 
معينة من المسائل من تلك التي يتعذر الحصول لما على «حلول رياضية بقوانين 


-١‏ يتطلب استيفاء كل مقارّبة من مثل تلك المقارّبات تخصيص عشرات الصفحات لتفاصيل فنية يتطلب شر حها الكثير 
من الرياضيات المتقدمة» وهو ما لا يتسع له المجال في هذا المقام» وسوف نحيل القارئ المهتم oe‏ التفاصيل إلى المراجع 
المختصة بذلك. 

-Y‏ نحيل القارئ المهتم بالتفاصيل الرياضية وال هندسية بمحاكاة الشبكات العصبية واستخداماتها في التعلم الحاسوبي إلى 
الورقة التعليمية الآتية: 
Jain, A.K., Jianchang Mao, Mohiuddin, K.M., Artificial Neural Networks: A Tutorial, IEEE‏ 


.Computer Magazine, pp. 31—44, Mar. 1996 
http://A'eeexplore.ieee.org/xpl/freeabs all.jsp?arnumber-485891 
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«Closed Form Solutions) G‏ ويمكن استخدام هذه الشبكات للربط في 
كلا الاتجاهين بين المدخحلات وما تؤدي إليه من ملاحظات مرصودة - أي 
الحصول على إحدى المجموعتين بمعلومية المجموعة الأخرى - وبالطبع فإن الربط 
العكسي هو الأداة الممتخدّمة للتعرف على حروف الكتابة المقابلة لما لدينا من منحتياتِ 
(EE Ede‏ تعقب خط اليد أثناء الكتابة. وبطبيعة الحال op‏ ذلك كله يتطلب عملية 
تدريب للشبكة المستخدّمة على كميات كبيرة من المدحلات بالتوازي مع ما يناظرها من 
ملاحظات مرصودة وهو ما سنعرض إليه في القسم الخامس من هذا المبحث. 


۳- أساليب التعرف على الكتابة العربية المطبوعة 

بتتبع الأبحاث الجادة التي جرت خلال العقدين الماضيين - العقد الأخير من القرن 
العشرين والعقد الأول من القرن الحادي والعشرين - فإن تلك التى أثمرت أفضل 
النتائج في التعامل مع مسألة التعرف JYI‏ على الكتابة العربية VV c0] NET‏ [ 
اشتركت في أنها تستخدم LL‏ الرياضية القائمة على «نماذج مازكُوف adl‏ 
Hidden Markov Models)‏ التي تسعى رغم اختلاف تنويعاتها إلى استنباط «تسلسل 
المدخلات» (Inputs Sequence)‏ الأرجح احتاليا (المجهولة لدينا) الذي يؤدي 
عبر الظاهرة/ النظام/ العملية L5‏ الدراسة (عملية طباعة الكتابة في حالتنا هذه) إلى 
«تسلسل الملاحظات» (Observations Sequence)‏ (المعلومة OXL‏ 


الشّكل 18-١‏ : النافذة المنزلقة في اتجاه الكتابة على سطور الصورة الممسوحة ضوئيًا. 


-١‏ نحيل القارئ المهتم بالتفاصيل الرياضية والهندسية لنماذج ماركوف المخفِيّة إلى الورقة التعليمية الآنية: 
Rabiner, L.R., A Tutorial on Hidden Markov Models and Selected Applications in Speech‏ 
.Recognition, Proceedings of the IEEE, Volume 77 - No. 2, pp. 257-286, Feb. 1989‏ 
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ويناظر تسلسل المدشحلات فق .حالتنا هذه ترمیزات (ol s)‏ سروف الكليات 
المطبوعة al AE‏ التعرف غلها آنا سك[ اللات فيو (ulus‏ هات 
(Vectors)‏ هو كن شها ويباف يعن dias‏ المحتوى الرسومي داخل «نافذة 
منزلقة» (Sliding Window)‏ على سطور الصورة الممسوحة ضوئيًا والمرقمّنة الجاري 
التعرف عليها كا في الشكل رقم )۱۸-١(‏ أعلاه. 
ess‏ تمتاز المعالجات المرتكزة de‏ نماذج ماركوف المخفِيّة بقدرتها على فصل 
جرافيهات الكتابة العربية المتصلة مع التعرف على هذه الجرافيهات في آن OB cells‏ 
تصميم متجه خصائص التعرف كان -ولا يزال- اجتهادًا مفتوحًا للباحثين تتفاوت 
صَُوَّرُهُ بين تصميمات بسيطة مثل عدد REI‏ المتصلة في النافذة الرأسية المنزلقة فوق 
«سطر الكتابة المعياري» (Baseline)‏ ”مع عدد البقع المتصلة eR‏ وبين تصمييات 
dal‏ ا مثل حساب «العزوم القياسية اللامتغيرة) (Invariant Moments)‏ 
للمحتوى الرسومي للنافذة. Ul [Y cA cV co]‏ كان التصميمٌ المختار فإن هناك 
معايير للحكم على مدى جودة خصائص التعرف على الكتابة تُجُولها فيا يلي: 
.١‏ ضرورة أن يكون عدد الم ركبات في متجه خصائص التعرف محدودًا. 
Y‏ ضرورة أن يكون هذا العدد المحدود من المركبات في متجه خصائص التعرف 
۳. الحرص على أن يكون عدد المركٌبات في متجه خصائص التعرف أقل ما يمكن. 
4 رض عل UU‏ مساب كل مر كات مي patat‏ العرف elisa‏ 
ه. الحرص على أن تبقى تسلسلات متجهات خصائص التعرف المناظرة لنفس 
جرافيمات الكتابة ثابتة قدر الإمكان برغم أي اختلافات في أشكال هذه 
الجرافييات من حيث الأبناط والأحجام» أو بسبب بعض التشوهات الأخرى 
مثل الميل المحدود في سطور الكتابة أثناء مسحها ضوئيًا أو احتواء الكتابة على 
بعض الشوشرة المحدودة. 


-١‏ وهو السطر الأفقي الرمادي ني الشكل )81١-1١(‏ أعلاه. 
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eas‏ يؤدي الفشل في تحقيق الشرطين الأول والثاني مباشرة إلى تعذر تطبيق أية 
ctus‏ قائمة على ناذج ماركوف المخفيّة - وكذلك أية أساليب أخرى للتعلم 
الحاسوبي على وجه العموم - فإن تحقق الشرطين الثالث والرابع ضروري TEY‏ 
أنظمة واقعية للتعرف على الكتابة المطبوعة ذات تكلفة حاسوبية معقولة من حيث زمن 
التشغيل ومساحات التخزين» أما تحقق الشرط الخامس فهو مفتاح التمكن من التعرف 
على الكتابة العربية المطبوعة رغم تعدد أبناط وأحجام الكتابة. 


؛ - أساليب التعرف على الكتابة العربية المخطوطة يدويًا 

بسبب زيادة التنوع وعدم الانتظام في رسم الكتابة المخطوطة يدويًا بالمقارّنة مع 
الكتابة المطبوعة» فإن هوامش الخطأ في أداء أنظمة التعرف على الكتابة العربية المخطوطة 
يدويًا هى بطبيعة الحال أك كثيرًا مقارّنةَ هوامش الخطأ في أداء أنظمة التعرف على 
الكتابة kal‏ المطبوعة. ومع ذلك فإن أفضل المحاولات التي جرت خلال العقدين 
الماضيين للتعرف على الكتابة العربية المخطوطة يدويًا اشتركت في ارتكازها على 
العا co‏ الرياضية القائمة على نماذج مازكُوف Kaal‏ بأسلوب مشابه لما جرى AS re‏ 
في القسم السابق. [VEOY »٠١[‏ 


ه- بناء الموارد اللغوية لتدريب وتقويم أنظمة التعرف على الكتابة العربية 

يتضح من الأقسام السابقة في هذا الفصل أن الأساليب السائدة والأكثر نجاعة حتى 
وقتنا هذا للتعامل مع مسائل التعرف الآلي على الكتابة العربية بتنويعاتها المختلفة هي 
أساليب التعلم الحاسوبي بأصنافها المتعددة» وكا جاء في ختام القسم الثامن من باب 
«التحليل الصرفي الآلي لمفردات اللغة العربية» من هذا الكتاب فإن كل هذه الأساليب 
يستلزم تفعيلها تكوينَ ناذج ileal‏ رياضية تحاكي كل تتابعات جرافيمات الكتابة 
العربية كا تحدث في الواقع الحقيقي لنصوص اللغة وذلك بغية المساعدة في اختيار تتابع 
الجرافييات الذي يحقق أعلى احتمال رياضى في سياق التعرف على أشكاها المخطوطة أو 
المطبوعة. 
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ومن أجل بناء تلك النماذج الرياضية فلا بُدَّ من مادة لغوية DE‏ وعاءً واسعًا من 
الأسئلة (وهي في حالتنا هذه الكتابة المرفمَنة مطبوعةً كانت أم خطوطة) بالتوازي مع 
أجوبتها (النص العربي المناظر هذه الكتابة المرقمنة) لتغذية أساليب «التعلم الحاسوبي 
الموجّه) (Supervised Machine Learning)‏ ويطلق على عملية تشغيل هذه 
الأساليب الرياضية على المادة اللغوية من أجل بناء الناذج الاحتالية الرياضية اسم 
«التدريب» (S (Training)‏ يطلق على الوعاء الممتلئ بتلك المادة اللغوية اسم «المورد 
اللغوي» (Language Resource)‏ وبطبيعة op JL‏ النماذج الاحتالية سوف تحمل 
الخصائص الإحصائية للمورد اللغوي الذي CSSS‏ منه» والذي عليه بدوره أن حمل 
خصائص النصوص العربية المكتوبة الذي يعبر عنها. 

ولذلك op‏ بناء هذه الموارد اللغوية يشترط إضافة إلى الدقة العالية أن يجري التمثيل 
بصورة متوازنة لمختلف أبعاد التنوع في الكتابة مثل؛ أبناط الطباعة وأحجامهاء أو 
الخطوط اليدوية ÉU‏ ... إلخ. 


ففى حالة أنظمة التعرف على الكتابة العربية بتعقب خط اليد يتكون المورد اللغوي 
من الكتابة Rd a all‏ كرا airo gie‏ الق الأول من هذا الفضل > بالتوازي 
مع النص العربي الصحيح المقابل له» وتكون المحاذاة بين هاتين OS AM‏ على مستويين؛ 
أولاهما على مستوى «الضربات المتصلة بالقلم» (Strokes)‏ (ويناظر ذلك تقسيم 
العبارة السابقة التي تحتها خط إلى: ca‏ لضرء باء ت »١ء cala‏ باء لقلم)» les s‏ على 
مستوى الكلمات العربية الكاملة. 

أما في حالة أنظمة التعرف على الكتابة العربية المطبوعة فإن المورد اللغوي يتكون من 
X35‏ صفحات الكتابة العربية الممسوحة ضوئيًا - كما جاء توصيفه في القسم الأول من 
هذا الفصل - بالتوازي مع النص العربي الصحيح المقابل له» وتكون المحاذاة بين هاتين 
oS AM‏ على مستوى الكلمات العربية الكاملة وكذلك على مستوى السطور في كل 
صفحة» ولذلك الغرض تُسْتَخْدَم أدواتٌ برامجيةٌ للتقسيم JYI‏ لكل صفحة مطبوعة 
إلى كلمات وسطور كما هو مبين في الشكل الموضّح أدناه» وعلى اللغويين القائمين على 
بناء هذه الذخيرة اللغوية التحققٌ من صحة هذا التقسيم الآلي وتصويبه عند اللزوم. 
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دراسة إحول تقسيم e‏ إلعربي الممسوح اضوئيًا 
Ca‏ اسطور] أوكلماتا B‏ 


Essa التصوص] المطبوعة‎ [le GN) التعرنا‎ Kal لخدم‎ 
تحت الظروف]‎ Arabia OCR Systems [eid خصو العربية‎ 


الواقعية ب شوشر Boa‏ عن لسم cd‏ الكتابة ese‏ 


المتعددة إو SAI‏ إو جو دإ إكلمات| يأبجديةا إغير| إعر بيه 


الشّكل :۱۹-١‏ نموذحٌ على نواتج تعيين حدود الكلمات العربية الكاملة وحدود السطور بصورة آلية 
Heel‏ على التوزيع التكراري لنقاط الصفحات المرقمنة. 

ويتشابه كثيرًا la‏ الموارد اللغوية لأنظمة التعرف على الكتابة العربية المخطوطة يدويًا 
مع تلك المتعلقة بأنظمة التعرف على الكتابة العربية المطبوعة مع ملاحظة أن عمليات 
التقسيم الآلي للصفحات إلى كلمات وسطور ثم تصويب هذا التقسيم بل وتفسير 
النصوص في الصفحات المخطوطة يدويًا تستغرق من اللغويين عملاً ووقنًا أكبر. 
يُشكّل بناءٌ الموارد اللغوية اللازمة لتدريب أنظمة التعرف على الكتابة العربية بأنواعها 
الثلاثة؛ «بتعقب خط (JE‏ و«المطوعة) و( المخطرطة بدو 0( i‏ & كبيرة من أنشطة 
واستثمارات البحث والتطوير في هذه التقنيات» jg‏ بعضهم بحوالي خمسين في 
المئة» وبسبب ضخامة الحجم وارتفاع دقة العنونة المطلوبتين EUST‏ بناء كل من هذه 
الموارد فإن هذا النشاط يستدعي توظيف عدد من اللغويين العرب dh gll‏ حاسوييًا 
ا ل TNI‏ الأهداف التى نرجو أن حققها تأليف هذا 
l Te‏ 
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ببليوجرافيا مرجعيّة 
اللبحث الأول 


MAY olax ط۱‎ dg UR SA (غانم قَدُوريّ): رَسْمُ امضْحَن؛ دراسة‎ Ac .١ 


JI Y‏ (عبد العزيز): المخطاطة «الكتابة العَرَبيَة)» مَكتبة الخانجيّ» مِضر» /199م. 
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المبحث I‏ نظم تحويل النص إلى كلام. 
المببحث الثالث: لظم التَعرّف عل اللغة والمتكلم. 
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التَّعرّف الآليّ على الكلام 


-١‏ مقدمة. 
-Y‏ مكونات نظم التعرف على الكلام. 
-Y‏ ملخص لبناء نظام للتعرف على الكلام. 
- التعرف على الكلام في اللّغة العربيّة. 
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Y‏ — مقدمة 

نظم التعرف YY‏ على الكلام لها الكثير من التطبيقات المهمة في ختلف المجالات. 
ومن المعروف أن هذه النظم - وخاصة المعاصرة منها - تعتمد على مجموعة من النماذج 
الإحصائية التي تعبر عن الأصوات المختلفة في اللغة التي يراد التعرف عليها؛ وبا أن 
الكلام - كما تبين من الفصول السابقة - له بناء زمني وطيفي» بمعنى أن كل صوت من 
الأصوات هو عبارة عن تسلسل زمني لبعض المتجهات الطيفية» OB‏ ناذج ماركوف 
(Hidden Markov Models -HMM) Zl‏ تعتبر من eal‏ (إنلم يكن أهم) cael‏ 
التي ُستخدم لبناء نماذج الأصوات في نظم التعرف على الكلام المعاصرة. 

إن أسس نظم التعرف على الكلام المعاصرة - والقائمة على ناذج ماركوف ال مخفية 
- ظهرت في سبعيئّات القرن الماضى في جامعة «كارنيجي ميلون» (CMU)‏ الأمريكية» 
وكذلك في شركة «آي بي (IBM) tel‏ وني هذه الأثناء كانت الناذج قائمة على استخدام 
ce‏ الكثافة المتقطعة «(discrete density)‏ والتي ole w‏ ما تطورت معامل CES?‏ 
(Bell labs)‏ إلى استخدام ما يعرف ب «الكثافة (continuous density) tikat‏ وكانت 
الأبحاث في هذا الوقت تنصب على النظم ذات الكلمات المنفصلة من متكلم واحدء أو 
النظم التي تتعرف على عدد محدود من الكلمات (الأرقام على سبيل (JEU‏ ومع تسعينيّات 
القرن بدأ الاهتمام بنظم الكلام المتصل التي لا تعتمد على المتكلم. وكان الدافع الرئيسي 
هذه الأبحاث سلسلة من البرامج التي كانت تمولها وكالة مشروعات الأبحاث الدفاعية 
المتقدمة «Defense Advanced Research Projects Agency (DARPA)‏ والتى 
عملت على تحسين نسبة التعرف بالنسبة لأنواع مختلفة من الكلام المتدرجة Sra‏ 
ومن المناسب في هذا السياق أن Si‏ أن pleal‏ هذه الهيئة بتمويل أبحاث اللغة العربية 
بدأ في خلال العام ce Yt Y‏ واستمر في عدة مشروعات بحثية أدت إلى تحسن كبير في دقة 
التعرف على اللغة العربية؛ وسنتعرض لبعض هذه الأمثلة في هذا المبحث. 

وتحقيقا للغاية من هذا الملبحث سنبدأ بشرح المكونات الأساسية لنظم التعرف على 
الكلام القائمة على ناذج ماركوف المخفِيّة - وبالتحديد سنقوم بشرح النظم التي تعتمد 
على نماذج (جاوس) البسيطة؛ كا سنتطرّق إلى كيفية حساب معاملات هذه النماذج 
OT‏ من خلال إشارات الكلام. ويجدر القول في هذا السياق أن إمكانية حساب هذه 
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المعاملات OT‏ تحَدُ أحد أهم أسرار النجاح لنماذج ماركوف المخفيّة. ومع طرق حساب 
المعاملات gl‏ مناقشة دالة المدف (Objective function)‏ التي يتم الاستعانة مها أثناء 
تدريب النماذج؛ كا سنتعرّض لشرح بعض التطبيقات العملية هذه النظم | وخصوصًا 
تلك التي تُعنى باللغة العربية. 


Y‏ - مكونات نظم التعرف على الكلام 

يتم تحويل إشارة الكلام الداخلة إلى سلسلة من المتجهات الأكوستيكية» يطلق 
عليها - fale‏ - «متجهات السَّمات» (feature vectors)‏ وتسمى هذه العملية 
«استنباط الشَّمات» (feature extraction)‏ ثم يقوم محرك البحث بمحاولة إيجاد 


سلسلة الكلمات المناظرة» بحيث تكون: 
argmax‏ ~ 
qc PUMP b (wiy)‏ 2 
مايتم تبسيط المعادلة رقم O)‏ باستخدام قاعدة Bayes‏ إلى: 
A. argmax‏ 
I D (ylw) p (w)‏ دو 00 


تشير © إلى أفضل سلسلة من الكلمات» وتُشير Ew‏ أية سلسلة من الكلمات. 

ونحسب الكمية p (yIw)‏ استخدام النموذج الأكوستيكي الإحصائي (HMM)‏ 
والكمّيّة باستخدام النموذج اللغوي الإحصائي. والشكل C - Y)‏ يبين نظام للتعرف 
على الكلام» والذي سيتم تفصيله فيما يلي: 


النماذج اللغوية الإحصائيّة 


متجهات السّمات الكلمات التي تم التعرف عليها 
سس لمج 


النماذج الأكوستيكية الإحصائيّة 


الشكل 1-7: رسم توضيحي لنظام التعرف على PASI‏ 
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النموذج الأكوستيكي: ك| هو معروف OB‏ أصغر وحدة صوتية هي الفونيم. فعلى 
سبيل المثال» كلمة C$‏ تتكون /k /a /t /a /b /a / YIS‏ . وقد ناقشنا الوحدات 
الصوتية للغة العربية في الفصول السابقة. لذلك فإن أي كلمة يمكن تثيلها عن طريق 
ربط الفونيمات المكونة ها كا في المعجم النطقي. 

ويمكن اعتبار النموذج الناتج هو النموذج الأكوستيكي هذه الكلمة؛ ومن الجدير 
بالذكر أن معاملات ناذج الفون المكونة لأي كلمة يتم حسابها باستخدام ما يسمى 
«بيانات التدريب» والتي تتكون من إشارات الكلام والكلمات المناظرة. ويتم هذا 
التدريب في مرحلة بناء MaI‏ 


النموذج اللغوي: تتكون النماذج اللغوية - OU‏ - عن (N-gram) zò‏ وهذا 
النموذج يعطي احتمال ظهور كلمة ما مشروطًا على الكلمات ١-21‏ السابقة. de‏ سبيل 
المثال: فإن نموذج Q-gram)‏ أو (bigram)‏ بحسب احتمال ظهور كلمة الولد بعد كتب 
(الولد|كتب)م» وباستخدام هذه الناذج يمكن حساب احتمال أي ila‏ من الجمل من 
الناحية اللغوية» وسيتم تفصيل هذه النماذج لاحقا. 

وبعد حساب النموذجين -الأكوستيكي واللغوي - فإن برنامج SU‏ الشّفرة 
«Sa, (decoder)‏ حساب أرجح سلسلة من الكلمات المناظرة لإشارات الكلام. ومن 
الجدير بالذكر أنه في نظم التعرف ذات العدد الكبير من الكلمات op‏ عمليات البحث 
تتطلب قدرات حسابية عالية» ولذلك يلزم تطوير محركات بحث ذات كفاءة عالية؛ 
وعليه OB‏ إجراء البحث على عدة مراحل باستخدام (lattice) GKD‏ يعتبر من 
الطرق الواسعة الانتشار» وسيتم الحديث عن ذلك لاحقا. 

(Feature extraction) استنباط السّمات‎ -١ و‎ Y 

تعد خطوة استنباط السات خطوة أساسية تهدف إلى استنتاج المعلومات المهمة في 
إشارات الكلام» وفي نفس الوقت تقلل من فقد المعلومات. وبالإضافة إلى استنباط 
صورة مبسطة لإشارات الكلام فإن خطوة استنباط السات تبدف - كذلك - إلى 


ue d -١‏ ملاحظة آنا - في هذا الفصل - نستخدم كلمتي «فون» و «فونيم» بدون تمبيز؛ مع التأكيد علي وجود بعض 
الفروق التقنية بين الكلمتين. 
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الحصول على متجهات سات تناسب إلى حد كبير فروض الناذج الأكوستيكية. ومن 
المتعارف عليه أن متجهات السات يتم استخلاصها كل عشرة ميلي ثانية من نوافذ طوها 
Yo‏ ميل ثانية. ومن أشهر الطرق المستخدمة: المعاملات MFCC - Mel frequency)‏ 
«(cepstral coefficients‏ ويتم حساب هذه المعامللات عن طريق تطبيق «تحويل جيب 
elc‏ المتقطع) (Discrete cosine transform)‏ على اللوغاريتم الطيفي» ويتم الاستعانة 
بمقياس Mel‏ اللاخطى لمضاهاة ترددات الأذن. وبالإضافة إلى MFCC‏ فإن معاملات 
التنبق الخطي الإدرا (Perceptual Linear Prediction - PLP) is‏ تقوم بتحويل 
معاملات التنبؤ الخطي المعروفة إلى معاملات (PRAS)‏ بعد تطبيق التحويلات اللاخطية 
المرتبطة بالإدراك. ومن المعروف أن مُعاملات MFCC‏ ومُعاملات PLP‏ تعطي نتائج 
متقاربة في نظم التعرف على الكلام» مع بعض Jl‏ النسبّ لمعاملات PLP‏ في أوساط 
الضوضاء. وبالإضافة لاستخدام المعاملات التي تعبر عن الطيف لإشارات الكلام فإنه 
من المعروف أن إضافة المشتقة الأولى والمشتقة الثانية لهذه المعاملات يستخدم على نطاق 
واسع في نظم التعرف على الكلام. فعلى سبيل المثال» إذا كان التمثيل الطيفي يتكون من 
۳ معاملاً من معاملات MECC‏ فإن المنجه النهائى يضيف المشتقة الأولى والثانية هذه 
المعاملات ليصبح طول المتجه هو CYASYY Y‏ | 

Y‏ 7- النماذج الأكوستيكية ونماذج مار كوف ال مخفية 

s‏ 255 ف اة فاه يمك غل الكلية كسلسلة من ci gall‏ وتي هذه 
السلسلة بالتمثيل الصوتي للكلمة ويمكن الحصول عليها باستخدام قاموس صوتي وفي 
العموم يمكن أن يكون للكلمة الواحدة تمثيلات صوتية متعددة تناظر طرق نطقها. 

وأبرز مثال على ذلك في اللغة العربية هو التصريفات المختلفة للكلمة. فعلى سبيل 
Jti‏ فإن كلمة كتب يمكن نطقها CSS‏ أو «VS‏ 

ويتكون كل تمثيل صوتي عن طريق ربط عدد من الفونيهات. فعلى سبيل ob JUI‏ 
التمثيل الصوتي CS‏ للكلمة كتب يمكن تكوينه عن طريق ربط الفونيهات المكونة 
للتمثيل الصوتي .ka-ta-ba‏ 


m 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ل 


ew‏ تمثيل كل فونيم بها يسمى ناذج ماركوف ال مخفية کا هو موضح في الشكل 
(Y-Y)‏ 


الشّكل Y-Y‏ تمثيل الفونيمات باستخدام نهاذج ماركوف المخفيّة. 
* عدد من الحالات (states)‏ ثلاثة في الشكل. 
*؟ عدد من الانتقالات (transitions)‏ . ولكل انتقال ما يعرف Jie b‏ الانتقال. 
فمثلا المعامل a,‏ يعبر عن احتمال الانتقالات من ا حالة رقم Y‏ إلى الحالة رقم 
. ويكون مجموع احتمالات الانتقالات التي تخرج من حالة ما مساويا لواحد. 
ون الشكل (Y 7 Y)‏ نموذج ماركوف من اليسار إلى اليمين (left-to- right)‏ 
الواسع الانتشار في نظم التعرف على الكلام. 
* ناذج المخرجات ròl Coutput distributions)‏ (جاوس) البسيطة الواسعة 
الانتشار في نظم التعرف على الكلام. وفي هذه الحالة تكون معاملات النموذج 
هى متجه المتوسط (mean vector)‏ ومصفوفة Covariance) paw‏ 
(Matrix‏ . 
ودون الدخول في تفاصيل أكثرء Ul‏ إذا أعطينا متجهات السَّمات المناظرة لنموذج 
ما فإنه يمكن حساب معاملات الانتقال ومعاملات ناذج المخرجات باستخدام ما 
يسمى الخوارزم SUMI‏ الخلفيٌ .(forward-backward)‏ وكذلك إذا أعطينا c3)‏ 
ما ومجموعة من متجهات السَّمات» فإنه يمكن حساب de=‏ حدوث هذه المتجهات 
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ومما سبق فإنه إذا أعطينا حزمة من جمل التدريب فإنه يمكن أوتوماتيكيا حساب 
معاملات الفونييات المكونة هذه الجمل.ومن المعروف أن الفونات تتغير تغيرًا كبيرًا 
بتغير الفونات المجاورة» فعلى سبيل المثال: الفون (K)‏ في كتب يختلف عن الفون (K)‏ في 
سمكء وللتغلب على هذه الصعوبة يمكن استخدام نموذج لكل فون أخدًا في الاعتبار 
الفونات المجاورة من اليمين واليسار» وتسمى هذه cel‏ «تراي فون) .(Triphone)‏ 
وعلى الرغم أن هذه الناذج تعبر بشكل ol‏ عن الفونات» OB‏ عددها يصبح كبيرا 
جدا. فعلى سبيل المثال إذا كان في لغة ما 4٠‏ فون» فسينتج لدينا Et‏ نموذج فوني أو 
أحادي الفونية و ٤٠×٤٨ ES‏ نموذجًا ثلاثي الفونية. وينتج عن هذا العدد صعوبة في 
حساب معاملات الناذجء ولذلك فإنه يتم ربط معاملات النماذج. ففي JULI‏ السابق 
sl]‏ لدينا ٠504 ٠‏ 4 نموذج ثلاثي الفونية» أي حوالي Me ttt‏ نموذج. يمكن 
ربط هذه الناذج لعدد أقل = على سبيل المثال ٠٠٠١‏ نموذج. ومع أن الربط فكرة جيدة 
وتعطي فرصة الموائمة بين عدد الناذج وحجم حزمة البيانات المتوفرة في التدريب» 
يبقى السؤال عن كيفية الربط أو المشاركة في المعاملات؛ ويتم هذا في أغلب الأحيان 
عن طريق شجرة القرار. 
شحرة القرار (Decision Tree)‏ 

يتم ربط أو مشاركة النموذج عادة على مستوى الحالة وليس النموذج؛ وتستخدم 
شجرة القرار لتحديد أي الحالات يتم ربطها. ولكل حالة من كل فون q‏ تكون هناك 
شجرة ثنائية» وتحتوي كل نواة في هذه الشجرة على سؤال عن جيران الفون. 

ولربط النماذج iks M‏ بحال i‏ فون q‏ فإن كل الحالات في النماذج المناظرة المشتقة 
من 0 يتم تجميعها عند جذر الشجرة. واعتمادًا على الإجابة على السؤال عند كل نواة يتم 
تقسيم الحالات إلى قسمين حتى الوصول إلى أوراق الشجرة. 

وتتشارك كل الحالات الكائنة في ورقة من الأوراق في المعاملات. ويتم اختيار 
الأسئلة عند كل نواة من مجموعة مسبقة من الأسئلة. وعادة تكون هذه الأسئلة مرتبطة 
بجيران الفون. 


فعلى سبيل المثال» تستخدم أسئلة مثل: هل على يمين الفون صوت متحرك؟ 
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وهكذا يتم اختيار السؤال الذي يعطى أعلى زيادة في الاحتمالات عند الانقسام. في 
حالة استخدام نماذج جاوس الأحادية يمكن حساب الزيادة في الاحتمالية من الأعداد 
والمتوسطات دون الحاجة إلى البيانات الأصلية» ولذلك فإن عملية بناء الشجرة تتم 
بشكل سريع. 

ملخص تدريب ناذج ماركوف: 

* يتم اختيار نماذج أحادية الفون ابتدائية. 

* يتم تدريب الناذج بتطبيق الخوازمية الأمامية - الخلفية لعدد من المرات. 

* يتم نسخ كل فون 4 إلى ثلاثي - فون ل + 0 - ×» والذي ظهرت باعتبارها 

حزمة في حزم التدريب. فعلى سبيل المثال: إذا ظهر الفون © )٠٠١١(‏ مرة فسيتم 
نسخه إلى ٠٠١١‏ نموذج. 

يتم تدريب ناذج ثلاثيّة الفون باستخدام خطوة مشابهة» ولكن المشكلة أن بعض 
هذه الناذج تظهر لعدد صغير جدا من المرات. 

9 يتم د تطبيوٌ خوارزم شجرة القرار بمشاركة النسخ في عدد محدود من الناذج. 

(N-gram) الإحصائي‎ gU اللغوية‎ eil Y Y 

يتم حساب احتمال سلسلة من الكلمات باستخدام ناذج الحو الإحصائيٌّ 
N-gram‏ حيث تكون N‏ عادة في حدود 5-7 . 

ولتوضيح هذه الناذج LAE‏ استخدام مثال. فلنأخذ الجملة «لقد قامت الثورة 
المصرية في الخامس والعشرين من يناير». وإذا أخذنا نظرة احتالية للغة o‏ قد لا يروق 
لبعض اللغويين - ولكنّه على أي حال ما نقوم به في نظم التعرف على الكلام- Op‏ 
احتمال كلمة الخامس في الجملة السابقة يكون: 

P ل‎ MC 

اف الكلمة. . ففي الجملة السابقة ]3 اعتبرنا نماذج الحو «J-gram 6n‏ فإننا 
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نكتب die I‏ کا یلي: 
Lati)‏ في | الخامس) ‏ أو الثنائي جرام d)‏ | الخامس) P‏ 

ومن الواضح dl‏ بزيادة قيمة N‏ يتم تحسين القدرة التنبؤية للنموذج؛ ولكن على 

. القدرة على حساب الاحتم|لات. 

e‏ الكفاءة الحسابية للنماذج. 

ويتم حساب نماذج (N-gram)‏ ببساطة شديدة فعلى سبيل JEU‏ فإنه احتمال ( المصرية 
في | الخامس)2 يتم حسابه ببساطة كعدد مرات حدوث «المصرية في الخامس» مقسوما 
على عدد col‏ حدوث «المصرية في» في مدونة كبيره من النصوص. ورغم بساطة هذه 
الطريقة فإن المشكلة الواضحة Ob‏ كثير من الاحتمالات ستكون صفرية لعدم مشاهدتها 
في مدونة النص. ويتم التغلب على هذه المشكلة بها يسمى أسلوب 23-1« (discount)‏ 
والتراجع (back-off)‏ ومنها على سبيل .(Kneser-Ney) iż b JUI‏ 

؟,5- عر كات البحث 

كا S3‏ في مقدمة هذا الفصل فإن سلسلة أكثر الكلات احفالاً يمكن حسابها من 
متجهات السّمات عن طريق البحث في أرجح سلسلة من الحالات التي يمكن أن تكون 
قد أنتجت سلسلة متجهات السّمات Gb‏ للمعادلة رقم EY‏ ويمكن حل هذه المعادلة 
بكفاءة عن طريق البرمجة الديناميكية أو ما يسمى «خوارزم) (Viterbi)‏ وعند ile‏ 
الجملة يمكن حساب أفضل Ll‏ وإذا سجلنا أفضل اختيار عن كل Op cl‏ 
بإمكاننا الرجوع والحصول على أفضل سلسلة من الكلمات. 

de‏ الرغم من اميل فإن طريقة خوارزم N (Viterbi)‏ یمک 5 تطبيقها مباشرة 
في حالة وجود عدد كبير جدا من الكلمات» وخاصة مع ناذج لغوية طويلة. ولحل هذه 
المشكلة واالحصول على محرك للبحث كفء» فقد ظهرت طرق عديدة» وسوف نعرض 
هذه الطرق دون الدخول في تفاصيلها. ويمكن Ag y‏ خوارزم (Viterbi)‏ بكفاءة عن 
طريق تطبيق ما يسمى «التقليم» Pruning)‏ و(تمریر (Token passing) i534 JJ‏ . 
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وتقوم الفكرة الأساسية على es MT‏ حساب جيع الحالات الواقعة في فضاء البحث» 
ولكن يتم التركيز على الحالات التي تقع في نطاق الشعاع (beam width)‏ من أرجح 
الحالات. وعلى الرغم من أن التقليم وتمرير الرٌموز يمكن أن يؤدي إلى تطبيق جيّد 
لخوارزم (Viterbi)‏ (ني بعض الأحيان يمكن الحصول على نفس النتيجة بزيادة ZY‏ 
من الحالات الواقعة في فضاء البحث) فإن الأنظمة ذات العدد الكبير جدا من الكلمات 
قد تحتاج إلى طريق أكثر كفاءة. ونذكر على سبيل المثال الطرق التالية بدون الدخول في 
تفاضيلها. 

يمكن استخدام البحث عن طريق العمق أو لا (Depth firs‏ وهذه الطريقة يمكن 
أن تؤدي إلى كفاءة شديدة للبحثء ولكن يلزم مقارنة مسارات ذات أطوال مختلفة ما 
Rs‏ من التحكم في البحث. ويمكن استخدام طرق تعتمد علي المحولات محدودة 
الحالة «(finite state transducers»‏ وهذه الطرق تعبر عن كل المعلومات المطلوبة 
للبحثء مثل قاموس النطق والناذج الأكوستيكيّة والناذج اللغوية في صورة هذه 
المحولاات» ثم يتم دمجهاء ومن ثم تطبيق خوارزمات للتحديد «(determinization)‏ 
وضغط (minimization)‏ المحول الناتج للوصول إلى حول يمكن البحث فيه بكفاءة. 

ومع أن حر كات البحث مصممة في الأساس للحصول على أفضل ades‏ فبالإمكان 
الحصول على عدد ميم (MD‏ من الجمل مرتبة حسب احتاليتها بتعديلات بسيطة» 
ويمكن تخزين الجمل الناتجة بصورة أكثر كفاءة في ما يسمى «التشبيكة» (lattice)‏ 

ومن المتعارف عليه في البحث حاليا أن يتم استخدام محركات البحث متكررة- 
المرور (Multiple - pass)‏ وني هذه المحركات يتم البحث على عدة مراحل؛ ففي 
المرحلة الأولى يتم البحث باستخدام ناذج أكوستيكية ولغوية بسيطة نسبيا (على سبيل 
المثال ثنائي -جرام وثلاثي- فونات غير عابرة للكلمة) للحصول على (التشبيكة) ثم يتم 
إعادة تقييم (التشبيكة) باستخدام ناذج أكثر تعقيدا (مثال الرباعي - جرام وغيرها)؛ 
وتعتبر هذه الطريقة وسيلة معروفة للحصول على كفاءة عالية للبحث بدون التخلى عن 
الدقة. وبالإضافة إلى (التشبيكة) فإنه يمكن التعبير عن الحلول المتعددة باستخدام ما 
يسمى شبكة الاختلاط «(confusion network)‏ وهذه يمكن اعتبارها أكثر كفاءة من 
(التشبيكة)» ولكن المسارات المتوازية فيها لا تعبر عن نفس الفترة الزمنية. وتستخدم 
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شبكات الاختلاط à‏ تطبيقات متعددة؛ على Jui de‏ دمج نتائج عدد من نظم 
التعرف على الكلام. ويسمى ذلك طريقة الانتخاب. 

فيا يلي طريقة التدريب والبحث لبناء نظام gern qe‏ الخلا وام paese‏ 
الإسهاب عن بناء أنظمة التعرف على الكلام في اللغة العربية. 


-Y‏ ملخص لبناء نظام للتعرف على الكلام 

لبناء نظام حديث للتعرف على الكلام فإنه يلزم الآتي: 

(Acoustic data) -البيانات الأكوستيكية‎ Y, Y 
وعادة تتكون هذه الملفات من‎ (US وتتكون من ملفات الكلام والنص المصاحب‎ 
عدة آلاف من الساعات للحصول على الدقة المطلوبة. ويمكن استخدام عدة مئات‎ 
من الساعات في البداية ثم استخدام النظام الناتج للحصول على النص المناظر لبقية‎ 

البيانات. 

يتم الحصول على البيانات الأكوستيكية على النّحو الوارد فيم سبق. ويتم بناء 
نهاذج الفون» وعادة تستخدم ناذج ثلاثية - الفون إلي نباي d jill‏ العابرة للكلمات 
LS (Cross-word)‏ يتم استخدام شجرة القرار لربطها على النحو الذي سبق تفصيله. 
وفي المرحلة الأولى يتم الحصول على معاملات النماذج عن طريق تعظيم الاحتالية 
(Maximize the probability)‏ ثم تأي الطرق التمييزية» وهي واسعة الانتشار في 
النظم عالية الدقة؛ ولكننا لن نتعرّصَ ها في هذا الفصل» ويمكن الرجوع إلى بعض 
المراجع المدرّجة في نهاية الكتاب إذا أراد القارئ التعرف على هذه الطرق. وتعتبر حزمة 
البرامج HTK‏ من أهم الأدوات في هذا الصدد. 


Y Y‏ - البيانات اللغوية 
وتتكون هذه البيانات من النصوص. ويفضل أن تكون النصوص المستخدمة قريبة 


من الجمل التي سيتم التعرف عليها لاحما. ف فللتعرف على الاخبار يفضل استخدام 
نصوص مستقاة من الأخبار - كالصحف أو المدونات. وتعتبر نصوص «جيجا وورد) 
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(Giga word)‏ من أشهر هذه النصوص. وتستخدم البيانات اللغوية لبناء النداذج 
اللغوية كا تم تفصيله في| سبق. وتعتبر حزمة برامج (SRI tool kit)‏ من أهم الأدوات 
لبناء النماذج اللغوية. 

۳ - البحث 

بعد بناء الناذج الأكوستيكية واللغوية يتم دمجها مع قاموس النطق لبناء فضاء 
البحث. وعند التعرف على الكلام فإنه يتم استكشاف فضاء البحث للوصول إلى أفضل 
سلسلة من الكلمات. وفي هذا الصدد - وكما ذكرنا سابقا - يستخدم عادة أحد محركات 
البحث متكررة المرور للوصول إلى أفضل الحلول بكفاءة. ونُشير إلى المحركات القائمة 
على المحولات محدودة الحالة» ويمكن استخدام حزمة البرامج من AT&T‏ لهذا الغرض. 

ولكن محركات البحث في العموم - وخاصة ذات الكفاءة العالية - لا تتواجد 
بشكل مفتوح «(Open source)‏ ولكن يمكن استخدام حرك البحث الموجود مع 
HTK‏ كبداية لدراسة الجانب العملي لتطوير محركات البحث ذات الكفاءة العالية. 

وتكمن أهمية الطرق السابقة في أا تعمل لأي لغة وبشكل A‏ ولا تحتاج على الأقل 
نظريا لأي دراية باللغة» as‏ يكون المكون الذي يحتاج إلى دراية باللغة في هذه النظم 
هو القاموس الصوتي. 

وعلى الرغم من ذلك فإن الدراية بلغة ما واستخدامها بشكل أو بآخر يمكن أن 
يؤدي إلى تحسين نتائج التعرف على الكلام بشكل كبير؛ وفيا يلي سنتحدث باستفاضة 
عن التعرف على الكلام في اللغة العربية. 


٤‏ - التعرف على الكلام في اللُغة العربية 

تتحدث في هذا الجزء عن التعرف على الكلام في A‏ العربية. ومن حسن الحظ أن 
اللغة العربية كانت تحوز pleal‏ مجتمع الباحثين في التعرف على الكلام خلال الفترة من 
٤‏ إل 50١٠١‏ . وكان هذا متزامنا مع برامج (DARPA)‏ لهذا الغرض. وتم بناء أنظمة 
للتعرف على الأخبار والمحادثات التلفونية وكذلك بعض اللهجات المحلية مثل العراقية 
والشامية. وأدى هذا الاهتمام لتطور نظم التعرف على الكلام العربية تطورًا كبيرًا. 
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وسنعرض - فيا يي - لبعض خصائص اللغة العربية التي نمت معالجتها أثناء 
الأبحاث السابقة. 


١, €‏ - غياب التشكيل من النصوص العربية 

من المعروف أن النصوص العربية الحديثة تكتب بدون تشكيل. فعلى سبيل JU‏ 
فإن الكلمة «كتب» يمكن أن تكون «C59‏ أو TU‏ أو غيرها. ويمكن للقارئ في 
أغلب الأحوال أن يستنتج النطق الصحيح من السياق. ورغم أن هذه الطريقة واسعة 
الانتشار فإنها تشكل تحديًا لنظم التعرف على الكلام لصعوبة 1 أو ربعا استحالة J pat l‏ 
على نطق الكلمة دون وجود التشكيل. 

ومع بداية الاهتمام بنظم التعرف على الكلام العربيّ فقد تم استخدام حروف الكتابة. 
ففي المثال السابق يكون بطق كلمة «كتب» هو ED.‏ ومع أن هذه الطريقة التي تعتمد 
على (Graphemes) oll A‏ (الجرافيم هو وحدة التحليل الكتابي/ الجرافيميٌ) قد 
ساعدت على سرعة تطوير النظم» وخاصة بالنسبة لغير الناطقين بالعربية» فمن الواضح 
أن ذلك يتم على حساب الدقة. فناذج الصوامت» مثل «(ت» تمتص الحركات الصغيرة. 

وكذلك ob‏ ناذج الصّوائت» مثل «و» تخلط بين «و» 2 الذي (s Es‏ 
مثل «نور» و «و» شبه المتحرك (الَّذي End‏ حرف Cod‏ مثل tel on‏ ولبناء نياذج فونية 
للغة العربية فإنه يجب إضافة الحركات القصيرة. ويعتبر محلل (Backwalter)‏ الصرفي 
من أهم الأدوات للقيام بذلك. فعند إدخال عدد من الكلمات «JI‏ فإنه يعطي لكل كلمة 
(بالإضافة إلى خرجات أخرى) كل طرق النطق المختلفة. وعلى الرغم من أنه لا يمكنه 
تحديد طريقة واحدة لكل كلمة في البيانات الأكوستيكية» فإنه يمكن بناء قاموس صوتي 
بطرق نطق متعددة. وباستخدام هذا القاموس يمكن بناء ناذج أكوستيكية فونية. 

وني مقارنة بين ناذج الجرافيم والناذج الفونية للغة العربية الفصحى المعاصرة. 
(Modern Standard Arabic MSA)‏ وج أن النماذج الفونية تعطي (s uz‏ 
٠‏ (يجب التنويه أن التفوق النسبي /٠١‏ يعني أنه إذا كانت نسب الخطأ لنماذج 
الجرفيم هي /7١‏ فإن نسبة الخطأ لناذج الفون تكون NA‏ وليس .)/٠١‏ ومن المفيد 
التنويه أيضا أن القواميس الصوتية كثيفة النطق - كما في حالة التشكيلات العربية (في 


VY 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


المتوسط محلل dax - (Backwalter‏ | حوالي 1 تشكيلات مختلفة لكل كلمة)» وعندها 
Jex‏ استخدام ما يسمى «(Pronunciation Probabilities) EXER‏ والتي 
يمكن استنتاجها ib‏ أثناء تدريب النظام. 

ومن المفيد أن نلفت النظر إلى أن أي محلل صرفي قد يفشل في حل بعض الكلمات» 
خاصة الكلمات ذات الأصول الأجنبية أو التى لا توجد في قاعدة بياناته. وني هذه الحالة 
يحب إعباد تشكيا هذه الكلات : معاي mU‏ أو اليا ومن المذهش أن يعض 
أكثر النظم نجاحا يقوم بمزج الفونات مع الجرافييات للكلمات التي لا يوجد ها تشكيل. 

وعلى الرغم من تفوق الناذج الفونية للعربية الفصحى فإن تطبيقها للتعرف على 
اللهجات المحلية» مثل: العراقية» لم يحالفه النجاح؛ ويرجع ذلك في الغالب إلى أن 
المحللات الصرفية - مثل Buckwalter‏ - مصممة للتعامل مع اللغة الفصحى؛ وعادة 
ما تؤدي إلى تشكيل خاطئ للكلات العامية» وخاصة الشائعة؛ وسنعود إلى هذه النقطة 
عند مناقشة التعرف عل اللّهجَات العامية, 


Y, ٤‏ - البناء الصرفي للغة العربية 

من المعروف أن اللغة العربية غنية صرفيّاء مقارنة باللغات الأوروبيّة كالإنجليزية. 
فيإضافة السوابق واللواحق يمكن تحويل أي كلمة إلى عدد كبير من الكلمات 
ذات الدلالات المختلفة؛ فكلمة «سيكتبه» - على سبيل المثال - تكافئ الحملة 
الإنجليزية «He will write i‏ ولأن تعريف «الكلمة» في نظم التعرف هو سلسلة 
متصلة من الحروف. OB‏ استخدام السوابق واللواحق يؤدي إلى ظهور عدد كبير 
جد من الكلمات المختلفة. وعلى سبيل OB JEL‏ قاموسًا مكونًا من 55 ألف كلمة 
يكفي لتغطية 1AA‏ من نصوص الأخبار في اللغة الإنجليزية» بينه| نحتاج إلى عشرة 
Js‏ هذا العدد أي حوالي ٠٠١‏ ألف كلمة للوصول إلى نفس النسبة في اللغة العربية. 
وفي JULI‏ العامة لا يمثل ذلك مشكلة إذا توفرت الأدوات المناسبة لبناء فضاء البحث 
وكذلك محرك بحث ذو كفاءة عالية جدا للتعامل مع هذا العدد الضخم من الكلمات. 
ويمكن عن طريق التحليل الصرفي - أو حتى بعض الطرق البسيطة - فصل السوابق 
واللواحق أو حتى بعضهاء ويؤدي هذا بطبيعة ا حال إلى تقليص عدد الكلمات» وبالتالي 
تحسين التغطية للنصوص؛ ولكنه لا يؤدي بالضرورة إلى تحسين نسب التعرف على 


-yý- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
/ ;1 ا 


الكلمات. ويمكن تفسير ذلك بأن فصل السوابق واللواحق يؤدي إلى تقليص القدرة 
التنبؤية للناذج اللغوية» لأن السابق أو اللاحق في حالة فصله يعد ككلمة منفصلة؛ في 
حين أن قدرته التنبؤية تكون ضعيفة للغاية (فالسابق «ال» - على سبيل المثال - يمكن 
أن يأتي بعده عدد كبير جدا من الأساء في اللغة العربية)؛ كما أن بقاء الكلمة كوحدة 
متصلة يؤدي إلى نماذج أكوستيكية أكثر استقرار يسهل تمييزها عن بقية الكلهات» ولكن 
هذا لا ينفي أن التحليل الصرفي قد يكون مفيدا في بعض DYL‏ مثل عدم وجود 
أدوات للتعامل مع فضاء بحث كبير جدا أو الرغبة في بناء قاموس صغير نسبيا أو حتى 
عدم وجود نصوص كافية للحصول على عدد كبير جدا من الكلمات. ما سبق يتضح أن 
اختيار القاموس يجب أن يحتوي على بعد جديد» وهو التحليل الصرفي. وني هذا الإطار 
يجب الإجابة عن أسئلة مثل: أي الكلمات ستخضع للتحليل الصرفي؟ وما هي السوابق 
واللواحق التي سيتم اختيارها؟ وكيف يمكن بناء الناذج اللغوية في هذه الحالة؟؛ 
ونعتقد أن الإجابة عن الأسئلة السابقة تعتمد على كمية البيانات المتاحة» وكذلك طبيعة 
النظام المستهدف؛ ويجب إجراء تجارب للوصول إلى أحسن تصميم للقاموس. 


١, ٤‏ - التعرف على اللهجات العامية 

بالإضافة إلى اللغة الفصحى المعاصرة التي تستخدم في الكتب والصحف ووسائل 
الإعلام» فإن للغة العربية لحجات عامية (دارجة) مختلفة» مثل: الشامية والخليجية. 
ومع أن معظم اللغات ها صبغة رسمية وأخرى عامية» فإن الاختلاف في اللغة العربية 
يمكن اعمارة كوا dem‏ 

ومع البعد عن المناقشة الفلسفية في الفرق بين اللهجة واللغة» Ul‏ نجد الاختلاف 
بين اللهجات العربية يتخطى الكلمات إلى الفونات؛ فعلى سبيل المثال» لا توجد «الجيم 
القاهرية» في كثير من اللهجات الأخرى. وكذلك فإن الكثير من الكلمات الشائعة في 
ind‏ ما لا توجد في لحمجات أخرى . 

ومما يزيد المشكلة تعقيدا أن اللهجات لا تكون مكتوبة» ولذلك لا توجد نصوص 
كافية لبناء الناذج اللغوية. وقد تم بناء نظم للتعرف علي اللهجات العربية المختلفة مثل 
المصرية والعراقية والشامية بنسبة خطأ /”٠‏ وما لا شك فيه أنه مازال يلزم الكثير من 
العمل للحصول علي نظم تعرف علي اللهجات ذات دقة كبيرة. 


-5/ا - 


NM codicum j 
بنشرها ورقياً أو تداولها تجاري‎ os 
ولا يسمح ب‎ 


المحث الثاني 


نظم تحويل Sai‏ إلى كلام 


-١‏ التوصيف اللغوي. 
شارات الكلام. 


-ه/ا _- 


هذه الطبعة إهداء من SA‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


-۷ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


نُظم تحويل uai‏ إلى كلام 
(Text to Speech - TTS)‏ 


إن نظم تحويل النص إلى كلام - ك| يوحي اسمها - تقبل النص في لغة ما وتنتج 
ذبذبات الكلام المناظرة لهذا النص. وفي أبسط صورها يمكن لهذه النظم تسجيل 
الإشارات المناظرة للنص المراد نطقه؛ ولكن هذه الطريقة تظل مرتبطة بنطق عدد محدود 
من dese‏ 

لذلك فإن الصورة العامة لنظم تحويل النص إلى كلام تعتمد على تخليق الكلام من 
بعض الوحدات الصوتية؛ ولذلك فإن الحصول على هذه الإشارات التخليقية بجودة 
تقترب من الكلام الطبيعي هو الهدف الأسامي هذه النظم. 

وعادة تنقسم نظم تحويل النص إلى كلام إلى جزأين أساسيين» يقوم الجزء الأول 
بتحويل النص إلى «توصيف لغوي». ويقوم الجزء الآخر بتحويل التوصيف اللغوي 
إلي إشارات الكلام؛ ويكون الجزء الأول معتمدا على اللغة ويحتاج إلى الكثير من الخبرة 
اللغوية في حين أن الجزء NT‏ لا يعتمد على اللغة» GL s‏ يعتمد في الأساس على البيانات 
المسجلة (بالطبع فإن البيانات المسجلة يجب أن تكون من اللغة المراد نطقها). 

وسنقوم فيا يلي بعرض سريع لتكوين التوصيف اللغوي دون الدخول في تفاصيل 
مع التركيز على الجزء الآخرء وهو المعنِيٌ بإنتاج إشارات الكلام من التوصيف اللغوي. 
ولإنتاج الكلام تاريخ طويل يعود إلى نظم ال CFormant)‏ والدايفونات. 

Gi‏ في هذا الفصل» فسوف نتناول الطرق الكثيفة الاستخدام للبيانات؛ وهي طرق 
اختيار الوحدات» والطرق الإحصائية التي تستخدم ناذج ماركوف المخفِيّة» وهي 
واسعة الانتشار الآن. 
-١‏ التوصيف اللغوي 

يتكون التوصيف اللغوي - في أبسط صورة - من تحويل النص إلى سلسلة من 
الفونييات. أي: يجب أن تتوافر أداة لتحويل النص إلى فونيمات Ut‏ يسمى عادة بأدوات 
الجرافيم - إلى- فونيم (Grapheme to phoneme)‏ وهذه الأدوات تكون إما لغوية 
باستخدام قاموس وبعض القواعد» أو إحصائية قائمة على التدريب باستخدام الأمثلة؛ 


-/1/ا - 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
| ييا 


وفي بعض الأحيان يتم المزج بين القواعد اللغوية والإحصائية؛ وفي اللغة العربية - حيث 
يكتب النص في أغلب الأحيان بدون التشكيل - فإن وجود أداة لإضافة التشكيل قبل 
التحويل لفونيات تعد أساسية للحصول على التوصيف اللغوي. وعادة يتم معالجه النص 
قبل تطبيق أدوات الجرافيم - إلى - فونيم. فعلى سبيل المثال يتم تحويل الأرقام والتواريخ 
وعلامات الترقيم إلى نص؛ وبالإضافة إلى تحويل الجرافيمات إلى الفونيهات فإن التوصيف 
اللغوي يحتوي على معلومات عديدة من نفس الكلمة» مثل: الفونيهات المجاورة وعدد 
المقاطع في الكلمة وموقع المقطع. وكذلك معلومات عن الجملة» مثل: موقع الكلمة في 
الجملة وعلامات الترقيم المستخدمة. وبالإضافة إلى ذلك فإنه يتم استخدام معلومات 
عن المتحدث ونوع الأسلوب (خبري أو استفهامي) وحالة المتحدث. 

وتتكامل هذه المعلومات مع سلسلة الفونييات لاختيار أكثر الوحدات مناسبة 
لتخليق الكلام. فعلى سبيل المثال» تُستخدم هذه المعلومات لاستنتاج امتداد الوحدة 
والتردد الأساسي ها. وما سبق يتضح أن أدوات التوصيف اللغوي يمكن تقسيمها إلى 
ما يلي: أدوات لمعالجة النص» مثل: التشكيل الآلي» وأدوات لتحويل الجرافيم إلى فونيم» 
وأدوات للتعامل مع المعلومات على مستوى الكلمة والجملة والمتحدث. وترتبط هذه 
الأدوات ارتباطا وثيقا باللغة التي يتم التعامل معهاء وتتطلب معرفة دقيقة بخصائصها 
وكيفية توصيفها. 

-و لخصوصية هذه القواعد واختلافها من لغة إلى أخرى فإننا لن نتطرق إليها بالتفصيل. 
-Y‏ إنتاج إشارات الكلام 

كما أشرنا سابقاء op‏ إنتاج إشارات الكلام الحديثة يتم باستخدام إحدى طريقتين؛ 
طريقة اختيار الوحدات والطريقة الإحصائية؛ وسنتعرض لكلتا الطريقتين فيا يلي: 

-١ Y‏ طريقة اختيار الوحدات 


تعتمد طريقة اختيار الوحدات - كا يوحي الاسم - على تسجيل قاعدة بيانات 
halitas‏ ا لسر لعل epis‏ ار 


—NVA— 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
١١١١ EN‏ 


يتم تسجيل عدة ساعات» أي عدة آلاف من الجمل من متكلم واحد» ويراعى 
الحصول على تسجيل نقيء کا يُراعى اختيار الجمل بحيث تناسب ما سيتم نطقه في 
بعد ثم LE‏ الجمل إلى وحدات فونيمية؛ وعلى الرغم من أن وسيلة التقسيم ليست 
ذات أهمية كبرى» ob‏ ناذج ماركوف Kaal‏ تستخدم في هذا السياق. ونُشير إلى 
أن استخدام ناذج ماركوف هنا فقط لتقسيم الكلام وليست لإنتاجه CS‏ في الطريقة 
الإحصائية التي سيتم تفصيلها لاحقا. 

يتم تسجيل عدة آلاف من الجمل من متحدث واحدء ويتم بناء الناذج الفونيمية. 
في حقيقة الأمر يتم بناء نماذج تعتمد على السياق» مثل التراي فون أو غيره | كما أورّدنا 
في المبحث المعنيٌ بالتعرف على الكلام. 

وللتذكرة op‏ ناتج هذه الناذج يكون شجرة القرار لكل فونيم» والتي تعبر عن 
هذا الفونيم في السياقات المختلفة» حيث تمثل كل ورقة فيها وحدات هذا الفونيم التي 
تتشارك في السياق - أو بعبارة أخرى - التي لها سياقات متشابهة؛ ويتم JEE‏ كل ورقة 
بخليط (جاوس) كما سبق أن فصلنا. 

وبعد بناء هذه الناذج» يمكن استخدامها لتقسيم إشارات الكلام إلى فونيمات» أي 
معرفة متى يبدأ وينتهي كل فونيم في الإشارة ا معطاة. وتّعرّفٌ هذه العملية ب «التقسيم» 
(segmentation)‏ . وبعد المرور على إشارات الكلام كلها يتم ربط عدد من المقاطع 
بكل ورقة من أوراق شجرة القرار لكل فونيم. فعلى سبيل المثال» بعد إجراء التقسيم 
يتم تجميع كل المقاطع التي تنتمي إلى الفونيم / ب/ . ولكل مقطع يتم ا مرور على شجرة 
القرار المناظرة للوصول إلى الورقة المناسبة. وللتذكرة فإن الوصول إلى الورقة يتم عن 
طريق الإجابة عن أسئلة خاصة بالسياق coles D)‏ المجاورة في أغلب الأحيان). des‏ 
سبيل المثال» إذا اعتبرنا الفونيم / ب/ في كلمة «كبير» فإنه يمكن الوصول إلى الورقة 
المناسبة عن طريقة الإجابة عن أسئلة السياق الفونيمي (الفتحة / و / ى/ في هذه ا حالة) 
اختيار المقاطع (الوحدات) لإنتاج الكلام 

سنفصل فيا يلي كيفية إنتاج كلمة «كبير» كما في المثال السابق. وسنفترض أن لكل 
فونيم شجره قرار واحدة» وليس لكل حالة من الفونيم للتسهيل» ولأن ذلك أكثر 
شيوعا في نظم إنتاج الكلام. 


-۷۹4- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
| ييا 


إن كلمة «كبير» تتكون من السلسلة الآتية من الفونيات: 
Ik/ lal /b/ // [v]‏ 
ويمكن كتابتها كتريفونات کا يلٍ: 
-k-a/ /k-a-b/ /a-b-I/ /b-I-r/ /I-r -#/‏ #/ 

حيث # هو فونيم يعبر عن بداية ونهاية الكلمة» وحيث يؤخذ سياق الفونيم في 
الاعتبار عند كتابة كل تريفون. ويتم إضافة الفترة «(duration)‏ والنغمة (pitch)‏ لكل 
تريفون. ويمكن حساب الفترة المستهدفة والنغمة المستهدفة باستخدام عوامل كثيرة 
اعتهادًا على التوصيف اللغوي المصاحب وموقع الفونيم في الكلمة والموقع في الجملة 
وعلامات الترقيم وحالة المتحدث. ولن نتطرق بالتفصيل هذه النقطة لعدم وجود 
دراسة قياسية شائعة الانتشارء بالإضافة إلى أن ذلك يعتمد بدرجة كبيرة على اللغة 
وعلى التوصيف اللغوي؛ كا ننا نعتقد أن اللغة العربية بحاجة لكثير من العمل في هذا 
المجال. وبعد إضافة الفترة والنغمة المستهدفة لكل تريفون يمكن المرور علي شجرة 
القرار المناسبة والوصول إلى الوحدات المرتبطة بالورقة المناسبة . 
حساب التكلفة كالآتي: 

التكلفة الكلية = تكلفة الفترة + تكلفة النغمة + تكلفة pall‏ 
وحيث نحسب تكلفة الفترة والنغمة حسب بعدهما عن الفترة والنغمة المستهدفين؛ 


-Y , Y‏ الطريقة الإحصائية: نهاذج ماركوف المخفيّة 

لقد عرضنا فيها سبق ناذج ماركوف المخفِيّة في مجال التعرف على الكلام؛ ولكن 
يمكن استخدامها أيضا في إنتاج الكلام. فعلى سبيل JEU‏ نعتبر التريفون / /k-a-b‏ 
ثلاثي الحالة وكذلك colo‏ جاوس البسيطة. إن استخدام هذا النموذج لإنتاج الكلام 
يؤدي في أبسط صورة لاستخدام متجهات المتوسط الحسابي لكل حالة مكررة حسب 
احتالات الانتقال لكل حالة. ولكن هذه الطريقة المبسطة تؤدي إلى جودة متدنية 
للكلام oU‏ التّاليين: 
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* تكرار المتوسط الحسابي بدون أخذ السياق في الاعتبار. 

٠‏ تكلفة عالية للصق لعدم اعتبار الوحدات المجاورة. 

وللتغلب على هذا فقد تم استخدام احتمالات المشتقة الأولى والثانية في إنتاج الكلام. 
ومعاملات المشتقة واسعة الانتشار في التعرف على الكلام هي عبارة عن مزج خطي بين 
متجهات الطيف. وعلى سبيل JE‏ فإن المشتقة الأولى عند الزمن (t)‏ للكبسترم CCE)‏ 
يمكن كتابتها کا یلي: 2 
DC(t) — p kG(E s i)‏ 

k--2 

وكا يتضح OB‏ هذه المعاملات تأخذ السياق والوحدات المتجاورة ضمنيا في 
الاعتبار. ودون الدخول في التفاصيل الحسابية op‏ إنتاج الكلام باعتبار المشتقات 
يؤول إلى حل ie pat‏ معادلات من الدرجة الأولى؛ وبا أن تدريب ناذج ماركوف يتم 
عادة في فضاء الكبسترم أو أي فضاء آخر مشابه» ولا يتم في فضاء الإشارة الزمنية» فإنه 
يلزم وجود مرشح لإنتاج إشارات الكلام بدءً من المتجهات المنتجة. ويمكن استخدام 
المرشحات المستخدمة في تحليل الكلام لهذا الغرض. 

linear prediction) سبيل الثال» بمعرفة معاملات التنبؤ الخطي‎ e 
الكلام باستخدام مرشح‎ col يمكن‎ (excitation) والاستثارة‎ 15 
التنبؤ الخطي المعروف. وني أول أعمال إنتاج الكلام باستخدام النهاذج الإحصائية تم‎ 
المعروفة بجودتها لبناء‎ (MFCC) استخدام مرشح قائم على معاملات (كبسترم ميل)‎ 
إنتاج الكلام يحتاج إلى نماذج‎ op نماذج (ماركوف). وكا ذكرنا في سياق هذا الفصلء‎ 
للنغمة والفترة. وبا أن للنغمة طبيعة منفصلة» فإنه عند المزج بين معاملات الطيف‎ 
والنغمة يتم استخدام ناذج تمزج بين التوزيعات المتصلة والمنفصلة. إن ناذج ماركوف‎ 
تستخدم ضمنيا ناذج هندسية للفترة؛ ومن المعروف أنها غير دقيقة في التنبؤ بفترة‎ 
لا يمثل ذلك مشكلة كبيرة للتعرف على الكلام فإنه من الأفضل‎ eas الوحدات؛‎ 
استخدام ناذج أكثر دقة عند إنتاج الكلام. لذلك يتم - في بعض الأحيان = استخدام‎ 
(Hidden semi-Markov Models) ما يسمى بناذج شبه- ماركوف المخفية‎ 
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ولتلخيص ذلك فإنه عند إنتاج الكلام يتم عادة بناء eS‏ شبه- ماركوف المخفيّة 
والمزج بين التوزيعات المنفصلة لمعاملات النغمة المتصلة للطيف» ويتم استخدام 
المشتقات لفرض الاتصال حين إنتاج إشارات الكلام. 
وفيا يلي سنبين كيفية إنتاج إشارات الكلام لكلمة «كبير». وكا سبق فإننا نقوم 
بكتابة التراي فونات المناظرة. 
/#-k-a/ /k-a-b/ /a-b-I/ /b-I-r/ /I-r -#/‏ 


ولنأخذ التراي فون /a-b-1/‏ كمثال. لكل حالة من التراي فون يتم التنبؤ بعدد 
متجهات السّمات حسب توزيع الفترة للحالة» ويتم إنتاج متجهات eI‏ لكل من 
متجهات الطيف والنغمة باستخدام توزيعات التراي فون مع أخذ المشتقة الأولى والثانية 
في الاعتبار باستخدام المتجهات والنغمة والمرشح المناسب» وعليه يتم el]‏ إشارات 
الكلام» ويتم تكرار ذلك لكل تراي فون. 

وكما ذكرنا سابقاء op‏ طريقة اختيار الوحدات تؤدي إلى كلام عالي الجودة إذا توفرت 
قاعدة بيانات كافية لتغطية السياقات المختلفة» ولكنها تفتقد المرونة في تغيير نوع الكلام 
أو المتكلم. 

وتقع الطريقة الإحصائية على الجانب الآخر» فهي تتيح مرونة كبيرة لتغيير المتكلم أو 
نوع الكلام باستخدام التحويلات الخطية واسعة الانتشار في نظم التعرف على الكلام 
ولكنها في نفس الوقت - ونتيجة لأخذ المتوسطات أثناء التدريب- قد تؤدي إلى كلام 
أقل جودة من أفضل نظم اختيار الوحدات؛ ولكنها تبقى طريقة ذات دقة مناسبة ومرنة 
في نفس الوقت. 

ولتحسين جودة الطريقة الإحصائية فقد تم دراسة بعض الطرق في السنوات الأخيرة» 
من أهمها: 

* طريقة مصفوفة التباين العامة (Global Covariance Matrix)‏ وذلك لتلافي 

تأثير المتوسطات في إنتاج الكلام. 
* تدريب الناذج باستخدام أقل خطأ في التوليد. 
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المبحث الثالث 


وو 6 ل قر 4 p‏ 
نظم التعَرّف على اللغة والمتّكلم 


انظ التعرف عل ARI‏ 
-Y‏ نظم التعرف على المتكلم. 


XA 
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في هذا المبحث سنعرض نظم التعرف على اللغة ثم نشرح نظم التعرف على المتكلم. 
ولهذه النظم تطبيقات عديدة في ختلف المجالات. 


-١‏ نظم التعرف على اللّغة 

إن ال هدف في نظم التعرف على اللغة هو معرفة أي لغة تُطِقت بمعرفة ذبذبات كلام 
ما. وتكون المدخلات للنظام هي عدة ثواني من ذبذبات الكلام» يحدد النظام على 
أساسها اللغة التى نطقت به من بين عدة coU‏ معروفة لديه. وفي بعض الأحيان تشمل 
هذه النظم نظم التحقق من اللغة» بمعنى أن لدينا إشارة كلام ولغة ما ونريد التحقيق É‏ 
إذا كانت هذه الذبذبات تنتمي هذه اللغة آم لا. ولكن في هذا الفصل سنكتفي بعرض 
نظم التعرف على اللغة لتشابه الطرق المستخدمة. 

باعتبار ذبذبات الكلام - أو لنكون أكثر دقة متجهات السَّمات المناظرة - X‏ فإنه 
يمكن صياغة مسألة التعرف على اللغة كما يلى: 


argmax 


i* 1 P(l|x) 


حيث L‏ مجموعة من اللغات المعرّفة للنظام. وهكذا تصبح المسألة تطبيقا بسيطًا 
لقواعد التعرف على الأنماط. 

ومن الناذج الشائعة في هذا المجال استخدام نماذج خليط (جاوس) لكل لغة من 
اللغات المراد التعرف عليهاء ويتم تدريب هذا الخليط من متجهات السَّمات التي تنتمي 

ويمكن استخدام هذه النماذج لحساب الاحتمالات في المعادلة السابقة عند التعرف 
على اللغة» ويسمى هذا الأسلوب «الأسلوب الأكوستيكي» لأنه يستخدم الإشارات 
الأكوستيكية بشكل مباشر. ومن المعروف أن هذا الأسلوب لا يعطي نتائج جيدة جدا 
للتعرف على اللغة» eog‏ يعود ذلك لتداخل عوامل كثيرة - بالإضافة إلى اللغة - في 
الإشارة الأكوستيكية» مثل: المتكلم والتسجيل. وبجانب الأسلوب الأكوستيكي»› 
فإن ما يسمى ب «الأسلوب الفونوتيكي» واسع الانتشار في نظم التعرف على اللغة. 


—A0- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
.2 83 ييا 


وني الأسلوب الأخير يتم استخدام نظام للتعرف على الفونييات. ومن المدهش أن هذا 
النظام لا ينتمي بالضرورة إلى أي من اللغات المراد التعرف عليها. وبعد تمرير الإشارات 
في اللغات المراد التعرف عليها على نظام التعرف الفونيميء فإنه يتم بناء نماذج التحو 
الإحصائى (N-gram)‏ لكل لغة على الفونيهات الناتجة. والفكرة الأساسية هنا أن 
سلاسل الفونيمات الناتجة تستطيع التمييز بين اللغات المراد تمييزها. 

ومن البديبي آنه يمكن استخدام هذه الطريقة للتمييز بين أي عدد من اللغات. ومن 
المعروف أن الطريقة الفونيتيكية تؤدي إل نتائج تمتازة في التعرف على اللغة» ربا لأنها 
أقل تأثرا من الطريقة الأكوستيكية بالمتغيرات» مثل المتحدث والتسجيل. 

ويمكن تعميم وتحسين الطريقة الفونوتيكية باستخدام عدة نظم للتعرف الفونيمي» 
وليس بالضرورة من اللغات التي يراد تميبزهاء ثم بناء (N-gram) zole‏ اللغوية لكل 
لغة ونظام فونيمي. 

فعلى سبيل المثال» للتمييز بين اللغة «آ» واللغة (ب» يمكن استخدام نظام فونيمي للغة 
(e‏ واللغة «د)؛ ومن ثم بناء نماذج لغوية (أج) و«أد) و «(ب جا ١ب‏ د). ويسمى هذا 
النظام «النظام الفونوتيكي المتوازي»» ويؤدي إلى نتائج أفضل من النظام الفونوتيكي» 
ولكن بالطبع مع زيادة حجم cte)‏ والعمليات الحسابية A La‏ 

وعلى الرغم من أن الأسلوب الفونونيكي يبدو الأفضل في نظم التعرف على اللغة» 
فإن مزج الأسلوبين الفونومنيكي والأكوستيكي يؤدي في أغلب الأحيان إلى نتائج أفضل» 
ويتم هذا المزج بطرق عديدة. ففي أبسط صورة يمكن بناء نظامين منفصلين Lasi)‏ 
فونونيكي والآخر أكوستيكي) ومزج نتيجة النظامين للحصول على النتيجة النهائية. 


-Y‏ نظم التعرف على المتكلم 

تستخدِم نظم التعرف على المتكلم - كما يوحي الاسم- إشارات الكلام للتعرف 
على المتكلم. وتنقسم هذه النظم إلى نوعين؛ في النوع الأول يكون لدينا مجموعة من 
المتكلمين ويهدف النظام إلى معرفة إلى أي منهم تنتمي إشارة الكلام المدخلة. أما في 
النوع الآخرء وهو التحقيق» فإنه يعطي L‏ متكلًا ومهدف النظام إلى معرفة إذا كانت 


A= 
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إشارة الكلام المدخلة صدرت من هذا المتكلم el‏ لا. وللنوع الثاني تطبيقات كثيرة |3 
يمكن استخدامه للتحقق من البيانات مثل استخدام بصمات الأصابع أو العين وكذلك 
يمكن استخدامه بجانب كلمة السر (password)‏ وتتشابه الطرق ceu‏ المستخدمة 
في كلا النوعين ولذلك أننا سنتطرق إلى الطرق المستخدمة في التحقق من المتكلم. 
وللتحقق من المتكلم S‏ باستخدام إشارة الكلام × فإن الهدف يكون التأكد بأن 
X‏ تنتمي إلى 5 آم لا. وهذا يلزم وجود نموذج للمتكلم لحساب الاحتمال P(X|S)‏ 
وكذلك نموذج للخلفية (background)‏ لحساب P(X | background)‏ أو للتسهيل 
P(X|S)‏ 


P(X |b)‏ وعادة يتم الحكم بأن الإشارة X‏ تنتمى إلى S‏ ]15 كان ناتج القسمة 


أكبر من قيمة محددة † تسمى العتبة (threshold)‏ . 


ولفترة طويلة ظلت ناذج خليط (جاوس) تستخدم للتعبير عن المتكلم والخلفية. 
فيمكن تجميع عدد من متجهات السَّمات من المتكلم واستخدامها لبناء نموذج خليط 
(جاوس) بالطرق التقليدية. 

وكذلك يمكن تجميع متجهات السات من عدد كبير من المتكلمين واستخدامها 
لبناء نموذج الخلفية. ولتقليل كمية الكلام المطلوب الحصول عليه من المتكلم لتسجيله 
في النظام فإنه يمكن بناء نموذج خلفية من عدد كبير من المتكلمين ثم باستخدام طرق 
التكيف (adaptation)‏ للحصول على ce‏ المتكلم. ومن Saal‏ أن نفس متجهات 
السّمات المستخدمة في التعرف على الكلام يتم استخدامها في نظم التعرف أو التحقق 
من المتكلم وهي معاملات الكبسترم ومشتقاتها. وعلى الرغم من أن نظم التعرف على 
الكلام تهدف إلى تحييد تأثير المتكلم فإن المتجهات المستخدمة فيها تؤتي نتائج طيبة جدا 
عند استخدامها في التعرف على المتكلم وتكون أفضل من الخصائص ال معروفة بارتباطها 
ارتباطا وثيقا با متكلم مثل النغمة. ويمكن من الناحية اللغوية أو الأكوستيكية دراسة 
سات تؤدي إلى تحسين نظم التعرف أو التحقق من المتكلم. 

وفي الجيل الأحدث من نظم التحقق من المتكلم يمكن النظر إلى المسألة على أنها 
مسألة تصنيف c(classification)‏ ويمكن بناء مصنف لتحديد: هل تنتمي إشارات 
الكلام إلى متكلم معين أم لا. 
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(Support Vector Machine) تم استخدام آليّات المنّجهات الدّاعمة‎ RT 
لهذا الغرض. ومن الممكن بناء المصنف باستخدام متجهات السّهات التي تماثل تلك‎ 
المستخدمة في ناذج جاوس ولكن يمكن أيضا المزج بين ناذج خليط (جاوس)‎ 
والمصنفات. فيمكن بناء نماذج خليط (جاوس) كا سبق أن ناقشنا ثم يلي ذلك بناء‎ 
مصنفات في فضاء مكون من التوزيعات الاحتالية لكل مكون من مكونات الخليط.‎ 
وعادة تعطى الطريقة الأخيرة نتائج جيدة جدا للتحقق من المتكلم.‎ 

ولتقييم طرق التحقق من المتكلم فإنه يوجد نوعان من الأخطاء؛ في النوع الأول يتم 
قبول إشارة ما في حين أنها لا تنتمي إلى المتكلم المراد» ويسمى هذا النوع من الأخطاء: 
أخطاء التنبيه الخاطئ (false alarm)‏ وفي النوع الآخر لايتم قبول الإشارة بالرغم من 
أنها تنتمي إلى المتكلم المراد» وتسمي هذه بأخطاء الإخفاق .(misrecognition error)‏ 

ويتم تصميم النظام عند نقطة تناسب التطبيق المستخدم لأصله. فمثلا عند استخدام 
النظام لوصول إلى الحساب البنكي فإن تكلفة التنبيه الخاطئ تكون أكبر كثيرا من تكلفة 
الإخفاق. 


-//- 
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الفصل الثّالث 
تطبيقات مُعالجة اللغة العربيّة 4 مجال التعليم 


د. شريف مهدي عبده 


-١‏ تقنيات معالحة اللغات الطبيعية. 
Y‏ - تعلم النطق باستخدام تقنية التعرف I‏ على الكلام. 
Y‏ - تعلم الكتابة باستخدام تقنية التعرف JYI‏ على الكتابة. 


Éim مقترحات‎ - 5 


av. 
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يُستخدم الحاسوب في تعلّم اللغات بصورة خاصة؛ لتعلّم مهارات اللغة» سواء 
أكانت اللغة الأم» أم اللغة الأجنبية» أو ما يسمى باللغة الثانية. وتُستخدم تكنولوجيا 
الحاسب الآلي أداة تعليمية تساعد متعلمي اللغة لتطوير مهاراه تهم اللغوية» وتمثل بذلك 
عنصرًا مكملاً بالإضافة إلى طرق تعليمية أخرىء ما يساعد على خلق بيئة تعليمية 
نشطة وغنية لغويًا. cg‏ موسوعة ويكيبيديا استخدام الحاسوب في تعلّم اللغات 
ENTE‏ استخدام تكنولوجيا الحاسب الآلي لتقديم وتعزيز وتقييم المادة المراد أن يتعلمها 
الطالب» وذلك من خلال الاستفادة من ميزات الحاسوب التفاعلية وأناطه التعليمية 
N‏ اا 


-—- 


العشرين ]0[ وتطورت برامج تعلّم اللغة الإنجليزية بمساعدة الحاسوب مع 
بداية الثانينيّات» a s‏ استخدام الحاسوب باعتباره مساعدًا في تعليم اللغات وتعلمها 
بمراحل ثلاث إِذْ بدأث المرحلة الأولى فكرة في الخمسينيّات: cb y‏ الستينيّات» 
وقامت على أساس النظرية السلوكية التي عدّت الحاسوب أداة مثالية للتعليم؛ EY‏ 
يسمح بتكرار تعلم المادة مرات عديدة [Y‏ 

Ul‏ المرحلة الثانية فقد بدأت في السبعينيّات» واستمرت خلال الثانينيّات» وقامت 
على مبادئ نظرية التواصل؛ وكان سبب انتشار هذه النظرية هو الانتقادات التى 
تعرّضت لا النظرية السلوكية؛ ذلك أن البرامج التي تقوم عليها النظرية TE‏ 
تعتمد على التكرار؛ وهي بذلك تفتقد عامل التواصل» حيث تقوم نظرية التواصل على 
استخدام الطالب للغة في أغراض واقعية؛ ويتم تقييم الطالب بناءً على إعطائه الإجابة» 
وليس من خلال الأخطاء التي يرتكبها [Y]‏ وقد تم تطوير العديد من البرامج التي 
Es‏ الا سا ام 

ونا تررضت الرا مج التي تقوم على نظرية التواصل للانتقاد بسبب عدم وجود 
نظام واضح وفاعل لاستخدام الحاسب الآلي في تطوير برامج تعليمية حديثة معتمدة 
يمكن أن تحل محل البرامج التقليدية ظهرت برامج تقوم على عنصر التفاعل بين الطالب 
والمادة العلمية AE‏ على الحاسوبء وبدأ ظهور تطبيقات ذكية وتفاعلية لتعليم 
اللغات توظف تقنيات المعالحة الآلية للغات لتوفير بيئة تعليمية تفاعلية pU‏ المعلم في 


وقد بدأ استخدام الحاسوب فعليًا في تعلّم اللغات في الستينيّات من القرن 
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الفصل الدراميّ. وبعض هذه التطبيقات الشهيرة مثل المصحح JYI‏ لأخطاء الإملاء 
والمصحح (e AUI‏ للأخطاء النحوية التي يستخدمها بالفعل كثير منا في برامج الكتابة 
مثل برنامج (MS Word)‏ الشهير. 

تعتبر برمجيات تعليم اللغات عنصرًا Ceo‏ ومكملاً للمعلم في الفصل الدرامي. 
فالدارس يستطيع استخدام هذه البرمجيات للتدريب على مهارات اللغة المختلفة لعدد 
غير محدود من ساعات التدريب في (dl‏ وقت ومكان ملائم له [Y OM‏ وتتركز 
استخدامات تقنيات اللغة في التعليم في ثلاثة تطبيقات أساسية» هي: استخدام 
تقنيات معائلة اللعات الطبيعية (Natural Language Processing)‏ في تعليم 
وتركيب colo all‏ والجمل الصحيحة CO A‏ واستخدام تقنية التعرف الآ على الكلام 
à (Automatic Speech Recognition)‏ تعليم مهارة النطق» واستخدام تقنية 
QI C di‏ على الكتابة CAutomatic Handwriting Recognition)‏ في تعليم مهارة 
الكتابة. وفيهما يلي نوضح كيفية توظيف هذه التقنيات في جال تعلم اللغة. 


(NLP) تقنيات معالحة اللغات الطبيعية‎ -١ 

تساعد تقنيات luo‏ جة اللغات الطبيعية في Jue‏ تعلم اللغة الطلاب على التعرف على 
التركيب الصحيح للمفردات اللغوية وقواعد بناء الجمل في تركيب سليم طبقا لقواعد 
NRI‏ 


ففي خطوات التعلم الأولية لمفردات اللغة العربية يمكن استخدام المدقق QI‏ 


مدرسه والصّواب: مدرسة 
صوط والصّواب: صوت 

أبراهيم والصّواب: إبراهيم 
زبابة والصَّواب: ذبابة 


وهناك أساليب متعددة لبناء المدقق «LI‏ أشهرها هو استخدام قاموس 


AM 
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ونظرًا لتميز اللغة العربية بخاصية الاشتقاق الصرف الغزير» يوجد في هذه اللغة 
عدد ضخم من المفردات ما يزيد من صعوبة استيعاب الطالب هذا الكم من 
colo all‏ وخاصة في المراحل الأولية من تعلم اللغة. لذلك يمكن استخدام تقنية 
معالج الصرف الآلِيّ لمساعدة الطالب في التعرف على قواع د الصرف للغة 
العربية وتطبيقها على العديد من الأمثلة. ويمكن أيضًا استخدام معالج الصرف 
الآليّ لتحليل المفردات التى يكتبها الطالب والتأكد من صحتها طبقا لقواعد اللغة 
رصبي E‏ رر ا Ael all oda‏ ا 

(dle‏ مستوى بناء الجمل يمكن استخدام المحلل النحويّ NI‏ لتحليل البناء 
النحويّ للجمل التي ينشئها الطالب وتحكيم صحتها Úb‏ لقواعد النحو في اللغة 
العربية وتصحيح الأخطاء أو اقتراح عدد من الحلول في حالة توفرها كا في هذه الأمثلة: 


الحديقة جميلة جملة اسمية من مبتدأ وخبر 
COR ETT AES‏ 

à فا‎ 5c فعلشة‎ ila Z 
ca ية من فعل وفاعل ومفعول‎ > lensu 


ويلاحظ وجوب o seb‏ التنوين 
الشجرة جميل عدم تطابق النوع» cd alls‏ جميلة 
الأولاد يلعب عدم تطابق العدد. والصّواب يلعبون 
يلعب الأولاد جملة صحيحة 


تتميز اللغة العربية بخاصية المرونة النحوية بفعل عمليات التقديم والتأخير والحذف 
والإبدال والإضمار مما يمثل تحديًا لمتعلمي قواعد النحو في اللغة العربية. ويوفر المحلل 
الح ا أداة ي sus lar deed du‏ اء العمل (bison‏ 
لقواعد النحو. 

كما تساعد أدوات الترجمة الآلية متعلمى اللغة الثانية MAS.‏ حيث توفر بعض 
الأدوات البسيطة - مثل ذاكرة ا فعالة لمعرفة المفردات والنصوص 
اللغوية والمقابل لما باللغة الأخرى. ومما لا شك فيه أن توفر خدمة الترحمة الآلية 
المجانية على بعض مواقع شبكة الإنترنت قد ساهم بدرجة كبيرة في انتشار تعلم اللغات 
الأجنبية على الرغم من تدني مستوى الدقة ا حالي لبرامج الترجمة الآلية» ولكنها تتطور 


-۹۷- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
/ ;1 ا 


بسرعة كبيرة مع توفر النصوص المترجمة يدويًا واستخدامها لتحسين ناذج الترجمة في 
هذه البرامج. 

توجد طريقتان أساسيتان لاختبار المستخدم في أنظمة تعليم اللغات باستخدام 
الحاسب؛ الطريقة الأول هى أسئلة الاختيار من متعدد» والطريقة الأخرى هى 
الأسئلة الإنشائية حيث يترك للمستخدم حرية استخدام مهاراته اللغوية في AUS‏ 
الإجابة المطلوبة (S‏ 3( نظام (Arabic ICALL)‏ الذي تم تطويره في كلية الحاسبات 
جامعة القاهرة» حيث يوجه النظام المستخدم للتعرف على أخطائه والتوظيف الخاطئ 
للوحدات اللغوية. ويساعد هذا النظام المستخدم على الاستفادة من أخطائه وتعلم 
كيفية إجراء التعديلات اللازمة لتصحيح أخطائه؛ وني هذا النظام يتم استخدام محلل 
أخطاء يستعين بأدوات معالحة اللغة العربية» مثل محلل صرق ومحلل eod‏ للتعرف 
المنهج التعليميّ للغة العربية الذي يتم تدريسه في المدارس المصرية في المرحلة الابتدائية. 
الشكل V - Y)‏ يوضح مكونات نظام «(Arabic ICALL)‏ ويْمّثل واجهة المستخدم 
التفاعلية والمحتوى التعليميّ ومحلل الأخطاء اللغوية ووحدة تكوين ردود النظام. 


الطالب 


الإجابات 


الرسائل التوجيهية 


تصحيح الإجابة 


وحدة تكوين JI‏ 252 > وحدة تحليل الأخطاء 


الشّكل ١-١‏ : الشكل التوضيحي لمكونات نظام (Arabic ICALL)‏ لتعليم قواعد اللغة العربية. 


AA 
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ويتبنى نظام (GU gs (Arabic ICALL)‏ على استخدام القواعد في التعرف على 
الأخطاء اللغوية؛ ويتميز هذا المنهج بقدرته على توفير تحليل تفصيلي لأخطاء الطالب 
اللغوية» حيث يستطيع تمثيل قواعد البناء اللغويّ Úb‏ لنظم المعرفة اللغوية» وهذه 
القواعد تؤدي وظيفة مزدوجة لترميز البناء اللغويّ السليم» وأيضًا تكويد الأخطاء 
اللغوية المتوقعة على مستوى الصرف والنحو والدلالة» وتكون مصاحبة بالردود 
التعليمية المناسبة لكل خطأً. هذا المنهج لا يضمن تغطية كل الأخطاء المحتملة» ويمكن 
تلافي ذلك بالتركيز على نطاق تعليميّ code‏ ولكنه يتميز بعدم احتياجه إلى قواعد 
بيانات ضخمة لتدريبه مقارنة Asl MU‏ التي 5 تتبنى ce‏ الإحصائي للتعرف على 
الأخطاء اللغوية. 


-Y‏ تعلم النطق باستخدام تقنية التعرف JYI‏ على الكلام 

حار JU‏ تعليم النطق باستخدام الحاسب GYI‏ على كثير من الاهتمام مؤخرًا. وقد 
تم إنجاز الكثير من الأبحاث في هذا المجال» لاسي) في أنظمة تعليم اللغات الأجنبية 
باستخدام الحاسب QI‏ 

يقوم الطالب -في هذه التدريبات- بالتدرّبٍ على 0 حرف أو كلمة أو Je‏ 
معروضة أمامه على شاشة الجهاز. ويتم استخدام تقنية التعرف JY‏ على الكلام 
لتحكيم قراءة الطالب وتحديد ما إذا كانت قراءته صحيحة أم خاطتة. 


وعد تقنية نهاذج ماركوف المخفيّة الأكثر استخداما في edid‏ تعليم القراءة وون 
نماذج ماركوف المخفيّة من عدد من التهاذج؛ s‏ كل منها وحدةً من الوحدات الصوتيّة. 
وتقومٌ أنظمةٌ تعليم القراءة بتقييم ا AÉ a LA‏ : نه Gloss‏ للل باد م 
هذه ipo‏ حيث يتم تقطيع التسجيل الصوق JÉ‏ من المستخدم إلى المقاطع 
الصوتية à‏ المختلفة ÓB‏ للكتابة الصوتية تية للمثال المستخدم في الاختبار. وتكون كل من 
هذه المقاطع الصوتية مصحوبة بتقييم إحصائيٌ يمثل درجة تماثل هذا المقطع Qoa!‏ 
مع ناذج ماركوف الخاصة بالوحدة الصوتية لهذا المقطع. يتم تقييم قراءة المستخدم 
عن طريق حساب متوسط تقيبعات المقاطع الصوتية تية المختلفة في العينة الصوتية تحت 
الاختبار؛ وإذا تخطت قيمة محددة (threshold)‏ يتم اعتبار قراءة المستخدم قراءة 


404 
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صحيحة. ويتم اختيار القيمة المحددة (threshold)‏ من التجارب المعيارية للنظام على 


الصُوتيّة لصوت المستخدم 


تحليل أخطاء ghill‏ 


الشكل ۲-۳: نظام تحليل أخطاء النطق. 
وض حرام فإ مار كرفي لصيل xd d ur e‏ 
في تطبيق التعرف QI‏ على الكلام» مع اختلافٍ يتمثلل في آنا في هذا التطبيق H‏ 
مسبقا الجملة التدريبية التي ينطقها المستخدم مما يساعد على تحديد نطاق البحث لمحرك 
التعرف I‏ الأمر الذي يساعد على تحسين دقة النتائج. ويكون نطاق البحث فقط في 


دو وأ- 
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الصور المختلفة لأخطاء النطق في الجملة التدريبية المستخدمة» كا هو موضح بالشكل 
رقم (۳-۳). 


الشّكل ۳-۳: مثال لأخطاء النطق في جزء من كلمة. 


يعتبر أسلوب تفاعل النظام مع المتعلم في التطبيقات التعليمية من أهم العناصر 
التي تؤثر في درجة استفادة المتعلم. لذلك يفضل - في تطبيقات تعليم القراءة - توفر 
درجة من الثقة في تقييم النظام لقراءة المستخدم لتقليل الحالات التي يصدر فيها تقييم 
خاطئع لقراءة الطالب؛ ويمكن à‏ هذه التطبيقات حساب مُعامل الثقة؛ ويستخدم هذا 
المعامل à‏ اختيار الرسالة المناسبة لتحكيم قراءة مستخدم النظام. هناك طرق متعددة 
تم اقتراحها لحساب هذا المعامل» من أفضلها معامل نسبة الأرجحيّة Likelihood)‏ 
0 الذي يتم حسابه عن طريق ترتيب المقاطع الصوتية في قراءة المستخدم بناء على 
التقييم La I‏ المصاحب ها؛ ثم يتم حساب معامل الثقة بالمعادلة التالية: 
متوسط تقييم ارجح مسار في نماذج ماركوف 
معامل الثقة > —— 
متوسط تقييم GG‏ أرجح مسار في نماذج ماركوف 


za de 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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ويعتمد هذا المعامل على قيمة الاختلاف بين أرجح تقييم من البدائل المتاحة لنطق 
الكلمة موضع الاختبار والتقييم التالي في الترتيب؛ فوجود اختلاف كبير يدل على 
وجود درجة عالية من الثقة في تحكيم النظام لقراءة المستخدم. 

وتعتمد الرسائل التصحيحية في هذا النظام على مدى ثقة النظام من النتائج (معامل 
الثقة)؛ وإذا كان معامل الثقة صغيرًا يسير النظام على إحدى هذه الطرق: 

Y‏ - إهمال الخطأ GE‏ وعدم ظهور رسالة له (وهذا جيد للمبتدئين» OM‏ إظهار إنذار 

خاطئ يثبط من عزم المتعلم). 

-Y‏ طلب إعادة الجملة من المستخدم لأا غير واضحة. 

-Y‏ إظهار رسالة توضح وجود خطأ غير حدد» وطلب إعادة الجملة. 

-٤‏ إظهار رسالة بأكثر الأخطاء شيوعًا في هذا الموضع. 


ويمكن تحسين أداء أنظمة تعليم القراءة بدرجة كبيرة عن طريق 
تكييف وتحويل -3(JI‏ الصوتية (Models Adaptation)‏ لتشابه خصائص صوت 
المستخدم. ومن أشهر طرق تحويل نماذج ماركوف طرق التحويل الخطيٌ. 
نظرًا لسهولة تنفيذها وفاعلية نتائجها. وفي هذه العملية يتم تجميع عدد قليل من 
الجمل من المستخدم لاختيار أقرب حزمة صوتية لصوت المستخدم؛ وهذه 
لحزمة تستخدم كنموذج مرجعي لصوت المستخدم. ثم يطلب من المستخدم 
إدخال عدد من الجمل يتم تحكيمها باستخدام هذا النموذج المرجعي. وإذا رأي 
النظام أن الجملة خالية من أخطاء القراءة يقوم بوضعها في المجموعة التي سيتم 
استخدامها في عملية تحويل النموذج الصوتي. تستمر هذه العملية حتى يتم تجميع 
كمية كافية من الجمل لباء عملية تحويل النماذج الصوتية باستتخدام 
ويوضح الشكل رقم (5-7) Cus‏ توضيحيًا لعملية التحويل de‏ في نماذج 
ماركوف. 
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النموذج المعدل للمستخدم 


0 


ولا رلا 
الشكل -5: عملية تحويل النماذج الصوتية. 

ومن تطبيقات تعليم النطق التي تمثل درجة عالية من التحدي: استخدام الحاسب 
I‏ في تعليم قراءة وتجويد القرآن الكريم. فبالمقارنة مع تطبيق تعليم اللغات - حيث 
توجد فروق واضحة بين النطق الصحيح والأخطاء - تحتاج بعض قواعد النطق في 
علم التجويد إلى درجة عالية من الحساسية من أجل الحكم بصحة تطبيق القاعدة 
التجويدية؛ ما يتطلب استخدام معالج CIT‏ للتعرف على الكلام ذي درجة عالية Mer‏ من 
الدقة. والتحدي الأكبر هو معالجة هذه التقنيات للأحكام التجويدية والفونييات فوق 
المقطعية التي ينبغي على دارس القرآن تعلمها. 

ويرقى الدكل peel E‏ 
تدرييات خاصة هذا الدرس» فيستمع المستخدم لتلاوة هذه التدريبات بصوت قارئ 

قياسيٌ ثم عليه أن يكررهاء فيقوم البرنامج بتوليد تقرير مكتوب ومنطوق عن قراءة 
المستخدم يشرح له فيها أخطاءه التجويدية واللغوية ى| هو موضح بالشكل. ويظهر في 
التقرير المكتوب المقطع الذي قرأه المستخدم مع تلوين الحرف أو الحروف التي فيها 
الخطأ باللون الأحمر مع شرح للخطأ المرتكّب؛ ويتم توليد التقرير المنطوق بحيث 
يظن المستخدم أن الحاسوب يفهمه ويتفاعل معه» لأنه يخبره بالخطأ صوتيًا. 
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ويتضمن التقرير G3 all‏ مثالا منطوقًا عن الحكم الذي كان فيه الخطأ من قبل 


يوجد أعطاء, من قضلك انفر علي الكلنة sd‏ الأغطاء 


" اللام في هذا الموضوع لا يجوز تفخيمها ولا تفخيم الألف‎ i 
التي بعدها.‎ y 


20203270 325J 
شاشة التدريبات في برنامج تعلم التجويد.‎ :5- SÓI 
ويوضح الشكل (5-7) نظام بناء الأخطاء التجويدية المستخدمة في هذا التطبيق؛‎ 


وهو يستخدم مجموعة من القواعد تم تصميمها بصورة مرنة JEKS‏ التعديل بالإضافة 
أو الحذف للأخطاء التي GA SE.‏ النظام .]٤[‏ 


ع8 ٠ا-‏ 


هذه الطبعة إهداء من SAM‏ 2 
لا يسمح بنشرها ورقياً أو تداولها تجارياً 
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محرك توليد الكتابة الصوتية 


مولد الأشكال امحتملة 


شبكة أخطاء النطق Éb‏ لأحكام التجويد. 
الشكل 5-۴ عر s 1 adis‏ 
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يعتمد توليد شبكة الأخطاء على محرك توليد الكتابة الصوتية للقرآن الكريم الذي 
يتكون من عدة طبقات؛ وهى محرك الأحداث الذي يبحث خلال الرسم العثماني للقرآن 
الكريم عن خصائص كل حرف ويولد له كودًا خاصًا 25( حالة نطقه (منطوق أو 
غير منطوق» مشدد أو غير مشدد. التشكيل الخاص بالحرف ...) وخصائصه الصوتية 
(مجهور. مهموس» مخرج الحرف» ...). ويقوم محرك توليد الكتابة الصوتية بتحليل هذه 
الأكواد/ اشرات وخصائص توليد الكتابة الصوتية الصحيحة طبقًا لأحكام تلاوة 
القرآن الكريم؛ ثم يقوم محرك مقارنة الناذج (القواعد) بتجميع كل هذه المعلومات 
وتوليد أخطاء التلاوة المتوقعة. 


والقاعدة الآتية توضح طريقة توليد الأخطاء الافتراضية: 


ente‏ ا 

فونيم - Ph,‏ نوع الح ر كة= V,‏ طول الح ر كة= «Le‏ 
مشدد= cS,‏ منطوق= CP,‏ إدغام - E,‏ 

والوحدة السابقة: 

فونيم - Ph,‏ نوع الح ركة= eV,‏ طول ا حركة- d,‏ 
مشدد= S,‏ منطوق - + 


Doa 
L, نوع الج ركة= ,7» طول ال حركة-‎ Ph, = فونيم‎ 
P, منطوق-‎ S, مشدد-‎ 
أضف مسارًا لطا التلاوة بالخصائص التالية:‎ I 
فونيم -50) نوع‎ Foll مقدار شيوع‎ WEILL كلمة‎ (Tal نوع‎ (Coal رقم‎ 
مدغہ=8‎ P= pha (872-122 »1.- ركة=۷» طول الحركة‎ Hl 


وتستخدم هذه الناذج (القواعد) بعد توليدها للمقارنة مع الكتابة الصوتية للقرآن 
الكريم لتوليد شبكة مسارات الأخطاء المتوقعة. ويقوم مولد شبكة مسارات الأخطاء 
بترتيب الناذج (القواعد) التي تطابقت بشكل تنازلي حسب مدى تطابقها مع الحالة 
الحالية ثم همل كل الناذج (القواعد) التي تولد نفس الخطأ ما عدا أوطاء ثم في 
النهاية تولد الشبكة بشكل يناسب نظام التعرف على الصوت. والوحدة المستخدمة 
في بناء شبكة الأخطاء في هذا الاختراع شبيهة بتلك التي تستعمل في طرق تعليم تلاوة 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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القرآن الكريم» حيث إن مفهوم الفونيم غير ملائم للمستخدم. وتتكون الوحدات 
في هذا النظام من حرف +حركة قصيرة» حرف+حركة طويلة» حرف ساكن» حرف 
مشدد+حركة قصيرة» حرف مشدد+حركة طويلة» حرف مشدد ساكن. 

تعد اختبارات الأداء | لعملية من أهم وسائل تقييم أنظمة تعلم القراءة لبيان دقتها 
pe nd‏ لدى poe e ad iPod‏ 
والاختلاف في تحكيم الشيوخ المجازين لقراءة المتعلم العادي» تم تسجيل ثلاثمئة 
محاولة لنطق كلمات أو جمل تحتوي على أحكام تجويد محددة من شخص عادي» ثم طلب 
اريك أ كاري يعوا eu oed‏ ار 
اتفاق تحكيم أي محكم مجاز مع أي محكم مجاز اخر في حدود ٠‏ وهي نفس نسبة 
اتفاق البرنامج مع آي من الشيوخ المجازين. والنسبة التي خالف فيها البرنامج إجماعهم 


اختبارات الأداء 


$ 6 


È € & € — l* 
| 78.8% | LL 77.295 1 | 81.0% | | 79.795 | | 81.5% | 
d | G è € 
| 4.855 | | 7.8% | | 6.8% E | 2.0% | 


الشكل 7-/: توضيح لمدى اتفاق واختلاف المشايخ مع بعضهم البعض ومع برنامج تعليم التجويد. 
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وفي اختبار آخر لقياس أثر برنامج تعليم التجويد على تعلم الفرد المبتدئ لحكم 
أو أكثر من أحكام التجويد, تمت الاستعانة بمجموعة من الأفراد العاديين الذين لا 
يجيدون أحكام قراءة القران الكريم» ثم إجراء اختبار ES‏ - قبل استخدام التقنية = 
لتحديد مستوى المستخدم» ثم إتاحة الفرصة له للتعلم على الحكم أو القاعدة المطلوبة 
مع سماع أمثلة وناذج صوتية للحكم» وتم التركيز على قواعد ثلاث» هي: القلقلة» 
اراک aod‏ بعد دن من الروت - ساعة ees G5‏ 
البرنامج » ثم مرة ثالثة بعد ساعة تدريب أخرى . وأظهرت النتائج ارتفاع م: منحنى التعلم 
لمجموعة المستخدمين بنسب كبيرة حيث بدأ بنسب تقترب من ٠‏ 5/ وارتفع إلى ما يزيد 
فعالية التقنية وكفاءتها. ويوضح الشكل (A-T)‏ متوسط نتائج المشاهدات التي أثمرتها 
التجربة مع عشرة مستخدمين. 


إدغام ي القلقلتسهع إقلاب دوك 


الشكل ۸-۳: شكل بياني لقياس أثر تقنية تعليم التجويد ني تطوير منحنى التعلم لدى المبتدئين. 


-Y‏ تعلم الكتابة باستخدام تقنية التعرف JI‏ على الكتابة 

مع توفر أجهزة الكمبيوتر اللوحيةء تم مؤخرًا تطوير تطبيقات لاستخدامها في تعليم 
مهارة الكتابة باستخدام تقنيات التعرف VI‏ على الكتابة» حيث توفر هذه الأجهزة 
شاشات تفاعلية يمكن الكتابة على سطحها. ويقوم التطبيق بتحكيم درجة جودة كتابة 
الطالب Úb‏ لقواعد كتابة الخط العربي. 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o EN‏ ^ 


ولقد قام فريق بحثيٌ في LIS‏ الحاسبات بجامعة القاهرة بتطوير تطبيق لتعليم كتابة 
الخط العربيّ للأطفال في المراحل التعليميّة الأوّليّة. ويساعد هذا التطبيق الطفل على 
تحسين جودة خطه باستخدام مستويين من التّدريبات بصورةٍ مشامة لتدرّج تعليم 
الكتابة في دُرُوس BL‏ العري في مناهج التعليم للمرحلة الابتدائية؛ المستوى الأول 
هو الكتابة الموجهة للدروس الأولية لتعليم الكتابة باستخدام صور منقطة لأشكال 
الحروف المختلفة؛ GT‏ المستوى الثاني فهو الكتابة الحرة» حيث يارس الطالب التدريب 
على الكتابة بصورة غير مقيدة. 

في تدريبات المستوى الأول» يقوم الطالب بالتدرّب على كتابة حرف أو كلمة أو 
جملة معروضة أمامه على شاشة الجهاز» حيث يتم عرض صورة متحركة توضح طريقة 
الكتابة المثالية للنموذج الموضح على الشاشة للمستخدم» ثم يتم عرض صورة لهذا 
النموذج على الشاشة بلون شفاف. lli,‏ من المستخدم الكتابة على هذا النموذج 
عن طريق المرور فوقه بالقلم بنفس طريقة الكتابة المثالية السابق عرضها له؛ ويحتوي 
هذا النموذج الشفاف على عدد من BUS‏ التحكيم غير المرئية للمستخدم كا هو موضح 
بالشكل (4-7). ثم fai‏ هذه BUDE‏ لتحكيم العناصر التالية في كتابة المستخدم: 

-١‏ درجة قرب كتابة المستخدم من موضع نقاط التحكيم. 

-Y‏ ترتيب مرور كتابة المستخدم على BUS‏ التحكيم. 

aae -Y‏ الوقفات في كتابة المستخدم. 

يتم تجميع هذه التقيبمات في تقييم Ur]‏ يستخدم لإنتاج رسائل تصحيحية مناسبة 
للأخطاء المحددة» حيث تساعد هذه الرسائل في إرشاد المستخدم لطريقة الكتابة السليمة 
وتوجيه حركة اليد في الاتجاه الصحيح والتحكم في القلم المستخدم» كما تساعده على 
الكتابة بطريقة سهلة التعلم وواضحة. 


Ab 


الشّكل *-4: نموذج تعلم الكتابة الموّجّه. 
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بعد أن از الطالي المسعوى الأول من الدريبات يفكق أن يقل TIR‏ 
الثاني في الكتابة الحرة» حيث يكون قد تمكن من إتقان المهارات الأساسية لكتابة 
الحروف؛ لذلك يتم تدريب الطالب - في المستوى الثاني - على الكتابة بدرجة أكبر من 
الحرية بدون توجيه لاختبار مدى استيعاب الجهاز الحركي عند الطالب لأشكال كتابة 
الحروف وتخزينها في الذاكرة الباطنية. l‏ 

وفي تدريبات هذا المستوى يتم عرض صورة متحركة توضح طريقة الكتابة المثالية 
للنموذج الموضح على الشاشة للمستخدم» ثم la‏ من المستخدم كتابة النموذج بنفسه 
على مساحة بيضاء. ويتم تحكيم جودة كتابة المستخدم, ثم تُعرَضُ نتيجة تقييم هذه 
الكتابة مع توضيح نوعية الخطأ وموضعه في أي حرف من حروف النموذج المستخدم. 
ولعمل هذا التحكيم يتم تنفيذ مرحلتين من المعالجة لكتابة المستخدم؛ حيث يتم في 
المرحلة الأولى تحديد المقاطع الحرفية في كتابة المستخدم وحدود مدي والنهاية لكل 
حرف في عينة الكتابة» وذلك باستخدام ناذج ماركوف المخفية التي سبق شرحها في 
تطبيق تعليم القراءة. 

E‏ هذه النماذج نظرًا للتطابق الكبير بين عمليتي النطق والكتابة؛ فالأولى هي 
تتابع من الأصوات المنطوقة, والثانية هي تتابع من الحروف المكتوبة» مع اختلاف بسيط 
في الثانية» إذ عادة تضاف النقط والعلامات التشكيلية بعد إتمام كتابة الكلمات. وهذا 
التحرك الخلفي في اتجاه الكتابة يسبب Ue‏ من التعارض مع الفرض الأساسي لنماذج 
ماركوف المخفية من نوع (Ergodic HMM)‏ وهو أنها تستطيع عمل نمذجة للبيانات 
المتتابعة في اتجاه أمامي فقط . 

وللتغلب على هذا التعارض» أَضِيفَت مرحلة قبل المعالجة لإعادة ترتيب تتابع 
الوحدات المكتوبة في عينة الكتابة لتكون في تسلسل أمامي» LE‏ يسهل استخدام نماذج 
ماركوف المخفية من نوع (Ergodic HMM)‏ لعمل نمذجة هذه البيانات. 

وبعد تحديد المقاطع الحرفية في كتابة المستخدم» يتم تحليل جودة كتابة كل مقطع 
وتحديد نوع الخطأ في شكل كتابة الحرف إن وجدء ويتم ذلك باستخدام عدد من 
المصنفات الثنائية» يتخصص كل مصنف منها في إعطاء قرار ثنائي عن وجود خطأ sde‏ 
في كتابة الحرف أو عدم وجوده. 
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في الشكل )٠١-7(‏ يتم عرض حلط لمراحل تحكيم الكتابة الحرة للمستخدم» وكا 
نرى في مراحل تحكيم كلمة «حافظ» بعد المعالجة المبدئية وإعادة ترتيب اتجاه الكتابة 
في الكلمة تم تحديد المقاطع الحرفية في الكلمة» وهي هنا أربعة مقاطع؛ وتم تحكيم 
جودة كتابة كل حرف والأخطاء الملحوظة فيه؛ مثل حرف الألف» وهى مكتوبة بشكل 
مقوس في هذه العينة. ۰ 


حاوظ 


الرسائل التوضيحية 


الشكل :٠١-*‏ مراحل تحكيم الكتابة الحرة. 
ولتصنيف أخطاء الكتابة هناك العديد من المصنفات الآلية التى يمكن استخدامها. 
Mx,‏ الات المتجهات الدّاعمة (support vector machine)‏ من أفضل الوسائل في 
مكتوب باحتوائه على خطأ محدد أم لا. والجدول (Y- Y)‏ يوضح أمثلة لعدد من أخطاء 
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الكتابة في عدد من الحروف» حيث يتم بناء عدد من المصنفات الثنائية مساو لعدد 
الأخطاء التي تم حصرها لكل حرف. ويتم تدريب هذه المصنفات باستخدام عينات 
من الكتابة المثالية وعينات من الكتابة بالخطأ المحدد. ويتم استخدام جزء من عينات 
الكتابة لتوليف أفضل اختيار لبارامترات المصنف. 


$ 
1 


عينة خطأ نوع الخطاً 


تدويرة حرف الواو صغيرة 


أربع نبرات في حرف السين 


تدويرة حرف السين غير مكتملة 


حرف الراء شبه الدال 


لا يوجد انحناء في رسم الراء 


لا يوجد انحناء في رسم ا لحاء 


حرف الصاد بدون نبرة 


e[CININIUISIECIC 


حرف العين يُشبه رقم أربعة 


ج لا يوجد عنق لحرف الفاء 


b 


تدويرة حرف المهاء مفتوحة 


8 Co & ries 


الجدول 1-1 : نماذج لأخطاء كتابة بعض الحروف. 
تم اختبار هذا التطبيق على DÉ‏ عدد من مدارس المرحلة الابتدائية في المرحلة 
العمرية ١١-5‏ سنة. تم تدريب ٠١ ade‏ طالب على استخدام التطبيق» ثم استخدم 
الطلاب التطبيق للتدرب على كتابة الأمثلة المتاحة. بعد عدد قليل من الحصص التعليمية 
تمكنت نسبة كبيرة من الطلاب من تحسين كتابتهم؛ وقد تمكن بعضهم من تقليد طريقة 
الكتابة المثالية للأمثلة. aul‏ تحليل نتائج التجربة إلى وجود تفاوت في قدرة التطبيق 
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على تتبع أخطاء الكتابة المختلفة (S‏ هو موضح بالشكل (OV-T)‏ حيث تراوحت الدقة 
للحروف المختلفة Éb 4٠ - 1٠‏ لدرجة الصعوبة في شكل الحرف وتعرٌّف التطبيق 
على نوع الخطأ في كتابته. وبصورة ما d$‏ أن درجة استفادة الطلاب الأصغر سنا من 
النظام أكثر من قرات الأك Ha‏ وحذه Rei‏ متوقعة إل حد كبير تسيب مرونة 
جهاز الكتابة عند الصغار» Ut‏ يسهل تعلم التغيير في طريقة كتابة الحروف وتعديل هذه 
الأشكال في العقل الباطن للطفل» ما يسهل عليه استخدامها بصورة آلية في المستقبل. 
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الشّكل :١١-‏ نسبة الدقة في التعرف على أخطاء كتابة الحروف المختلفة. 
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Xon مقترحات‎ - ٤ 
في تطوير استخدام تقنيات معالجة اللغة العربية‎ oga مشاركة الباحثين‎ ad 
الا‎ cu ارو ون لال‎ d E 
SA di lol b aded o oS 
من أقدم العلوم مقارنة باللغات الأخرى» حيث تم وضع أسسه‎ 3a في اللغة العربية‎ 
ل ل م‎ r الور الا‎ d 
St MIE REG AUT 
تعلم النطق باستخدام الحاسب سوف يسهم في تطور هذه التقنيات والحصول على‎ 
وتستطيع الأبحاث اللغوية أيضًا توفير التحليل اللغويّ لأخطاء الكتابة وتصنيفها‎ 
وتعيين معدل تكرارها وتحديد مرجعيتها طبقا لقواعد البناء اللغويّ في اللغة العربية.‎ 
فكل هذه الخصائص تساعد على تصميم برامج تعليمية للغة العربية بصورة ميسرة‎ 
ومفيدة للدارسين حيث يتم التركيز فيها على العناصر الفعالة التي تقود المتعلم لفهم‎ 
واستيعاب قواعد اللغة من ناحية» وتوظيفها في كتابة النصوص بلغة عربية سليمة من‎ 

ناحية أخرى. 

ومن ناحية أخرىء يستطيع الباحثون o gall‏ بالخط العريّ توفير قواعد تعليمية 
لتحسين طرق الكتابة وإظهار جماليات الخط العربي. ويمكن استنتاج هذه القواعد عن 
طريق تحليل مُشكلات الكتابة في عينات من الخط تمثل ناذج الكتابة بدرجات إتقان 
متفاوتة. 
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الفصل alH‏ 
التقييم الآلي 


-١‏ تقنيات الأسئلة المقالية وأنواعها. 

UT (الموضوعات التعبيرية)‎ JU طرق تقييم‎ -Y 
تقييم الإجابات القصيرة.‎ -Y 

-٤‏ تقييم درجات الكلام. 

-o‏ أنظمة تقييم الرياضيات. 

73 أنظمة الكشف عن السرقات الأدبية. 

-V‏ أنظمة التقييم الآلي ودعم اللغة العربية. 

8- الخلاصة. 
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c التقييم‎ 
(Automatic Scoring) 

مقدمة 

تؤدى زيادة عدد الطللاب والاختبارات إلى أن تصبح عملية تصحيح إجابات 
الاختبارات بأنواعها وتقييم الطلاب أمرًا مزعجاء ويؤدي التقييم Automatic) (JI‏ 
(Scoring -AS‏ إلى اختصار الوقت والجهد. وتوفير تناسق ومتانة التقييم» وتوحيد 
المقاييس المعيارية لتقييم الطلاب ورصد الدرجات؛ ك| أن هذه النظم واسعة المجال le‏ 
يكفي لتغطية جميع أنواع إجابات الطالب المكتوبة والمنطوقة. 

وتوفر أنظمة التقييم والتصحيح الآلي العديد من المزاياء مثل اتساق وعدالة التقييم» 
وتقديم تقييمات للامتحانات عالية المخاطر (high-stakes assessments)‏ والتي 
ALI des‏ بين القبول والرّفض «ناجح أو غير ناجح»» «يقبل أو لا يقبل»» (يصلح 
أو لا يصلح» وهكذا. وتعزز هذه النظم معنى «التوحيد القياسي» عن طريق تطبيق 
نفس المعايير على جميع الإجابات. بعبارة أخرى فإن التقييم AES SI‏ يوفر الفوائد 
لكافة مهام التقييم با فيها من مكوناتها الأساسية» G Ey‏ الطلاب والقائمين 
بالتقييم وعملية الاختبار نفسها. وني الوقت الحالي يتم استخدام نظم التقييم الآلي في 
تصحيح كثير من اختبارات القبول للجامعات المشهورة مثل اختبارات: 

The Test of English as a Foreign Language (TOEFL) the Graduate 
.JRecord Examinations (GRE) and the Scholastic Assessment Test (SAT 

تتعامل أنظمة التقييم الآلي 45 الحالية مع الطلاب من خلال ثلاث طرق: 

الطريقة الأولى هي تقييم إجابات الطلاب المكتوبة» وتشمل تقييم وتصحيح 
المقاللات النصية (ومنها موضوعات التعبير والانشاء)» تصحيح الإجابات القصيرة. 

ويْمَثل تصحيح المقالات النصية GAE‏ أكبر من تصحيح الإجابات القصيرة» حيث 
يتطلب تقييم أسلوب الطالب في الكتابة style‏ ويحتاج معالجة لغوية عميقة. 


الطريقة الثانية هي تقييم إجابات الطلاب المنطوقة» وتنقسم إلى نوعين: 
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النوع الأول: وفيه يُطلب من الطالب نطق جملة مكتوبة» ويتم تقييم طريقة ودقة 
النطق. والنوع ESI‏ وفيه يطّلع الطالب على نص مكتوب» ويطلب منه التعبير بصورة 
منطوقة عن مفهوم النص مستخدما قواعد النطق والقواعد النحوية الصحيحة لتكوين 
الجمل الصحيحة. 

يطلق على النوع الأول مصطلح «الإجابات المنطوقة بفوضى منخفضة» low)‏ 
(entropy spoken responses‏ ويطلق على النوع FS‏ مصطلح «الإجابات المنطوقة 
بفوضى .(high entropy spoken responses) lärs „o‏ 

أما الطريقة الثالثة للتعامل مع الطلاب فهي تصحيح المسائل الرياضية» والتي 
تتطلب من الطالب الإجابة بمعادلات ونصوص وأرقام ورسومات بيانية. 

ومع أن هدف أنظمة التقييم AS JYI‏ هو تحقيق علاقة توافق عالية بين الدرجات 
التي يمنحها الإنسان والدرجات التي تمنحها الآلة» فإنه من المهم أن نعرف أن تقييم 
درجات إجابات الطلاب تختلف في أسلوبها عند تقييمها بواسطة الآلة عنها عند تقييمها 
بواسطة الإنسان. فبصفة عامة يوجد أسلوبين لتقييم درجات إجابات الطلاب بطريقة 
آلية. يعتمد الأسلوب الأول على تحديد درجة التطابق التام بين إجابة الطلاب والإجابة 
الصحيحة النموذجية المحفوظة في النظام. الأسلوب الآخَر لا يفترض وجود إجابات 
نموذجية للمقارنة cue‏ ولكنه يعتمد على تحليل واستخراج سمات مختلفة من إجابات 
الطلاب لتحديد نتيجة درجات التقييم الآلي بناءَ على التعلم من نتائج التقييم اليدوي 
التي تمت سابقا على عينة من المقالات. 

نبتم في هذا الفصل بنظم التقييم الآلي للأسئلة المقالية والأسئلة التي تتطلب إجابات 
قصيرة. أما بالنسبة لأنظمة تقويم الأسئلة من نوعية تعدد الخيارات» أو اختيار الإجابة 
من بين اختيارات الخطأ والصواب» أو التطابق» أو ملء الفراغ؛ فهي سهلة التنفيذ 
والتطبيق ولن نتعرض ها. 

Sal‏ الإفادة من تقنيات التقييم الآلي للأسئلة المقالية في بناء أنظمة للكشف عن 
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السرقات الأدبية (Plagiarism detection)‏ حيث تنتشر هذه الظاهرة -للأسف - 
في الأوساط الأكاديمية» إذ عادة ما تكون في وثائق المقالات أو التقارير. ومع «S‏ 
يمكن وجود ظاهرة السرقات الأدبية في أي مجال تقريباء o‏ في ذلك الأوراق العلمية» 
والتصميمات الفنية» وحتى في برامج الحاسب. 

يركز هذا الفصل على المنهجيات ونتائج التطبيقات بواسطة كبريات شركات 
التطوير في جال التقييم AS JYI‏ مثل: شركة خدمة الاختبارات التربوية ETS‏ وشركة 
معارف تكنولوجيا بيرسون PKT‏ وشركة فانتيج ليرنينج. 
Educational testing Service (ETS), Pearson Knowledge technologies‏ 


(PKT) and Vantage Learning. 


ويشتمل الفصل على عدّة محاور رئيسية: أنواع الأسئلة المقالية ونظم تقييمها الآلية 
(AES)‏ نظم تقييم الإجابة القصيرة» نظم تقييم الكلام (الإجابات المنطوقة)» نظم 
تقييم أسئلة الرياضيات» أنظمة الكشف عن السرقات الأدبية» وأخيرا.. موقف اللغة 
العربية من هذا المجال المهمٌ. 


\ الأسئلة المقالية وأنواعها 
تنقسم الأسئلة المقالية إلى أربعة أنواع رئيسية» يعكس كل منها هدفا تعليميًا مختلمًا: 
١‏ - أسئلة وصفية :(Description)‏ 
وتتطلب سرد النقاط الرئيسية في الموضوع؛ وغالبا ما تبداً بالأفعال التالية: 
حدّد. صِفء خطّط» اشرح. عَدَّد اذكر» لخصء قدَّم 


Define, describe, outline, explain, list, delineate, trace, state, 
summarize, present 


:(Discussion) أسئلة مناقشة‎ -Y 
وتتطلب مناقشة النقاط الرئيسية في الموضوع؛ وغالبا ما تبداً بالأفعال التالية:‎ 
حلل» استکشف» ناقش» علق» وضح» فسر» استعرض‎ 


Analyse, explore, discuss, comment, illustrate, account for, interpret, 
review, explain, consider, debate, show how and examine 
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:(Evaluation) أسئلة تقييم‎ -Y 

وتتطلب إيضاح الخط الفكري أو الحجة خلف الموضوع؛ وغالبا ما تبدأ بالأفعال 
التالية: 

انقد» 3 ale t‏ على 

Criticize, evaluate, critically evaluate, justify, comment on, and interpret 

(Comparison) أسئلة مقارنة‎ - ٤ 

وتتطلب مناقشة نقاط التوافق والاختلاف أو نقاط القوة والضعف؛ وغالبا ما تبدأ 
بالأفعال التالية: 

قارن» cr‏ أوجه T "re «eal‏ ناقش 
Compare, contrast, differentiate, distinguish, debate‏ 


z 
3 


(AES) GI طرق تقييم المقال (الموضوعات التعبيرية)‎ -Y 

يعرف تقييم المقال آليا بأنه التقنية A‏ التي تقوم بتقييم ووضع درجات 
للأعمال المكتوبة؛ ويعرف تقييم المقال أيضا ub‏ تقدير وتقييم المقالات آلياء ووضع 
درجات المقالات المكتوبة آليا. 

معظم Joel‏ تقييم المقال UT‏ تتعامل مع اللغة الإنجليزية» مع قليل من النظم التي 
صممت لدعم لغات آخرى» مثل: العبرية واليابانية ولغة الملايو «البهاسا». 

تقييم المقال (الموضوعات التعبيرية) UE‏ لا يفترض وجود إجابات نموذجية 
للمقارنة بهاء ولكنها تعتمد على تحليل واستخراج سات مختلفة من إجابات الطلاب 
لتحديد نتيجة درجات التقييم الآلي بناءً على التعلم من نتائج التقييم اليدوي التي تمت 
سابقا على عينة من المقالات. 

So‏ بناء معظم أنظمة التقييم الآلي للموضوعات التعبيرية عبر نفس خطوات 
بناء الخوارزمات الإشرافية (supervised algorithms)‏ التى تتطلب مرحلة التعلم. 
فمراحل بناء نموذج التقييم iis AES JYI‏ وهي كالتالي: 
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مرحلة الإعداد» وتشمل تجهيز عينة من المقالات التعبيرية التي تم تصحيحها 
وتقييمها سابقا بطريقة يدوية مع تحديد واستخراج السمات التي سيتم تدريب النظام 
عليها من المقال. وتسمى هذه المجموعة: عينة أو فئة التدريب. يتم فحص عينة 
التدريب هذه من قبل خبراء الحاسب (ويفضل التعاون مع الخبراء في المجال) لتحديد 
واستخراج مجموعة من خصائص وسات وأوزان تصف النص المقالي. ففي مرحلة 
استخراج السمات والتدريب يتم تصحيح وتقييم مجموعة من مئات المقالات التعبيرية 
بواسطة الخبراء (القائمين بالتقييم) وإعطاء كل مقالة درجة من ٠١‏ مثلاء وتستخدم 
هذه السات والأوزان لإنتاج نموذج رقمي للنص يمكن استخدامه للتنبؤ بدرجة 
التقييم التي يحصل عليها المقال بواسطة الخبير الإنسان. 

مرحلة بناء نموذج برنامج التصحيح والتدريب» حيث يتم استخدام إحدى 
خوارزمات تعلم «ANI‏ مثل خوارزم آلة الدعم (Support Vector Machine) ig% ¿l‏ 
أو الخوارزمات الإحصائية مثل خوارزم بايز (Bayes Algorithm)‏ بغرض تعلم 
العلاقة الكامنة بين السات المستخرجة من الموضوع التعبيري وبين درجة التقييم التي 
تمت يدويا بواسطة الخبير القَيّم للمقال. ويتم التحقق من صحة هذا النموذج الرقمي 
من خلال مقارنة النتائج التي يتم الحصول عليها يدويا من قبل المَيّمين الخبراء ودرجة 
التقييم المستنتجة من هذا النموذج» ويتم تكرار هذه العملية حتى نتأكد من تطابق تقييم 
الحاسب للمقال مع التقييم اليدوي بصورة مُرضية. 

وأخيرا مرحلة الاستخدام الفعلي للبرنامج في تصحيح مقالات الطلاب التعبيرية 
الجديدة آليا. حيث يتم تغذية البرنامج بالسمات المستخلصة من المقال الموضوعي المراد 
تقييمه آليا. 

والآن» كيف يتم تحديد واختيار الخصائص والسمات المعبرة عن نمذجة المقال التعبيري؟ 
هناك طريقتان أو منهجيتان رئيستان لإنتاج ناذج التقييم الآلي AES‏ إما باستخدام أساليب 
«القوة الحاسوبية المحضة» (brute force)‏ أو باستخدام الوسائل المختلطة (الهجين). 

تستخدم المنهجيّة الأولى تشكيلة واسعة متنوعة من السمات والخصائص اللغوية 
للنصء والتي ليس لا علاقة مباشرة بكيفية الكتابة الجيدة لقال مثل وجود أخطاء من 
النحو الإملائي» ووجود أخطاء التنقيط» وهكذا. 
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(a‏ تكون الناذج القائمة على الأساليب المهجنة ذات علاقة مباشرة مشتقة من 
الناحية النظرية لمفهوم خصائص الكتابة الجيدة للمقال مثل مدى ارتباط تسلسل 
الفقرات في النص - وهو ما يطلق عليه مصطلح (Lexical Chaining)‏ - وأن الکلات 
المستخدمة هي المناسبة» ومدى استخدام الجمل الموجزة» ومدى استخدام صيغ نائب 
الفاعل في المقال» واستخدام صيغ الماضي» وهكذا. 


وجدير بالذكر أن تحديد واستخراج سات المقال الموضوعي الملائمة للتقييم هو 
التحدي الحقيقي لنظم تقييم JUM‏ 


AES ناذج من أنظمة التقييم الآلي‎ - Y, Y 

(Project Essay Grade - PEG) (JUN نظام «مشروع تصحيح‎ 2 

وقد تم تطويره بجامعة «كونيتيكت» الأمريكية منذ منتصف الستيئيّات. هو نظام 
رائد في تقييم المقال AES Uf‏ عبر تاريخ التقييم الآلي. يعتمد هذا النظام على سمات 
وقياسات تمثل جودة المقالات. هذه القياسات تأخذ في الاعتبار بنية الكتابة مثل 
la gia‏ طول الكليةة ga s‏ مط طول الما بالمتال» إضافة إل عدد مم الوخدات 
النصية الأخرى. 
i‏ يستخدم النظام إجراءً إحصائيًا لإنتاج أوزان ترجيحية هذه القياسات (باستخدام 
أسلوب تحليل الانحدار .((Regression Analysis)‏ 

لقد تت إعادة تطوير وتحسين نظام PEG‏ أواخر التسعيئيّات بإدراج أدوات 
معالجة اللغات الطبيعية (NLP)‏ مع الأخذ في الاعتبار التحليل النحوي وعلامات 
أجزاء الكلام (Parts of Speech tags)‏ للمقال ومدى التزام النص بقواعد النحو. 

ويستخدم نظام PEG‏ في تصحيح برامج الاختبارات تعليمية» مثل امتحان 
(Scholastic Assessment Test- SAT)‏ الذي يستخدم كاختبار للقبول في الكليات 
الأمريكية منذ عام 27٠0١5‏ وهو يقيس معلومات وقدرات الطالب في الرياضيات 
والقراءة النقدية والكتابة. 
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(Intelligent Essay Assessor — IEA) « نظام ١مقيم المقالة ال کي‎ " 

لقد تم تطوير ALI‏ الذَّجِيّ IEA‏ أصلا في جامعة كولورادو الأمريكية في عام 
E CARY‏ حاليا عن طريق شركة (برسون نولدج تكنولوجي PKT‏ هذا النظام 
قادر على تقييم المقالات بدرجة ثقة تماثل الخبرة البشرية الماهرة . 

يمتلك المقيم الذكيّ TEA‏ العديد من المزايا التي تميزه عن غيره من أنظمة تقييم 
درجات المقالات» حيث يوفر تقديرا كليا وتغذية عكسية عن الأخطاء الإملائية 
والنحوية. کا أنه يحتوي في بنيته على كاشفات للمقالات غير العادية» مثل مهارات 
القيادة العسكرية. وقد جرى استخدامه لرصد الدرجات والتقييم على مدى أكثر من 
مليون مقالة» تتراوح بين مقالات المدارس المتوسطة ومقالات SÉ‏ كليات الطب» 
وفي مجالات متنوعة المحتوى. 

ميزة هذا النظام أنه يركز على تقييم محتوى المقالة في المقام الأول» لا على التركيب 
البنائي ها فقط (CS‏ هو الحال في النظام السابق. ويقوم مقيم المقالة الذكيّ TEA‏ بتقييم 
ووضع الدرجات باستخدام أسلوب تحليل الدلالات الكامنة Latent Semantic)‏ 
«(Analysis- LSA‏ والذي يُمَثْل طريقة تحليل دلالة النص التي يمكن تعريفها بأنها 
«نموذج إحصائيٌ من استخدام الكلمة Ji‏ تسمح بمقارنات JYI NET‏ بين قطع 
من المعلومات النصية» حيث تنتج مجموعة من المفاهيم المرتبطة بمحتوى Coal‏ 

ويفترض أسلوب 184 أن الكلمات القريبة في ا معنى غالبا ما تكون قريبة من بعضها 
البعض في داخل النص. ويدمج نظام التقييم الذكيّ TEA‏ طريقة التحليل JYI‏ 
LSA‏ جنبا إلى جنب مع قاعدة بيانات معلوماتية تحتوى على مادة الكتب 
المدرسية وعينة مقالات أو مصادر أخرى غنية في الدلالة لتدريب أجهزة الحاسب. 

يؤدي هذا الدمج بين التحليل الدلالي وقاعدة البيانات المعلوماتية إلى تقليل عدد 
المقالات التي تستخدم في تدريب النظام» والتي يتم تصحيحها وتقويمها يدويا نظرا 


OY‏ رصد الدرجات يتم إنجازه اعتمادا على التحليل QYA‏ بدلا من بناء النماذج 
الإحصائية التقليدية للمقال. 
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" نظام إنتليمتريك (Intellimetric)‏ 

وهو نظام تم تطويره اعتبارا من ۱۹۹۷ بواسطة شركة تكنولوجيا التعلم Vantage)‏ 
(Learning Technology‏ ويعتبر أول نظام لتقييم المقال آليا as AES‏ على علوم 
الذكاء الاصطناعيّ واللغويات الحاسوبيّة؛ فهو يجمع بين أدوات معالجة اللغات 
الطبيعية (NLP)‏ والتقنيات الإحصائية في رصد درجات المقال» ويمكن الإشارة إليه 
كمحرك تعلم استوعب «الحكمة الجمعية» (Pooled Wisdom)‏ أو «يستند على العقل» 
لخبراء التقييم. يستخدم إنتليميترك CIntellimetric)‏ النموذج الذي يحتوى على أمثلة 
مجموعة من معاملات التنبق والأوزان التي تم تعريفها عن طريق استخراج أكثر من 
٠‏ سمة من أجوبة الطالب» بالإضافة إلى مجموعة سمات تدريبية تتكون من السمات 
ذات الطبيعة الدلالية والنحوية والخطابية. 

يأخذ نظام CIntelliMetric)‏ في الاعتبار خمسة أبعاد أساسية كامنة» وذلك عند 
تصحيح المقال ورصد الدرجات» وهى: المحتوى» والإبداع» والأسلوب. SUA S‏ 
والتنظيم. يستخدم CIntellimetric)‏ شبكات كلات معجمية مبنية على الإحصاء 
الدلالي للمقالة. هذا الإحصاء الدلالي يماثل أسلوب التحليل YI‏ الكامن Latent)‏ 
(Semantic Analysis-LSA‏ هذا التحليل الدلاليّ الكامن يمثل حمس فئات idle‏ 
من eel‏ 

الفئة الأولى تتم بالتركيز على الوحدة والتهاسك والتناسق في الغرض والأفكار 
الرئيسية في المقالة. 

الفئة الثانية تختص بمدى اتساع نطاق المحتوى ودعم الأفكار» وتعنى بمدى 
الاختيار السليم للمفردات والمفاهيم. 

الفئة الثالثة #بتم بمدى تنظيم وهيكلة المقالة من حيث منطق الخطابء (o‏ في ذلك 
سيولة الانتقالية والعلاقات بين أجزاء الاستجابة. 


الفئة الرابعة وتختص ببنية الجملة والتركيز على تعقيد الجملة والتنوع» مثل: التنوع 
النحوي في الاستخدام» ومدى التعقيد في الجمل المستخدمة. وأخيرا.. 
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الفئة الخامسة تعكس آليات التحقق من التزام QUI‏ بقواعد اللغة الإنجليزية» مثل: 
قواعد النحو والإملاء» والحروف الكبيرة» واكتمال الجملة» وعلامات الترقيم» وغيرها. 
حاليا يستخدم نظام CIntellimetric)‏ في كثير من المدارس الأمريكية والإنجليزية 

Là joy 
http: / /www.vantagelearning.com /products /intellimetric / 
demonstration /demonstration-american-english / 

" نظام التصنيف (E-rater)‏ 

هو نظام تم تطويره بواسطة شركة خدمة الاختبارات التربوية Educational)‏ 

(Testing Service -ETS‏ وهو معروف جيدا في تنبؤ درجات تقييم المقال ويتفق 
مع درجات التقييم اليدوية» بالإضافة إلى قدرة النظام على اكتشاف إجابات الطلاب 
الخارجة عن الموضوع. ويستخدم نظام المصنف E-rater‏ حاليا من أجل : 

.ETS تقييم درجات المقالات المرسلة» وتطبيق تعليهات كتابة المقاللات في نظام‎ ٠ 

* تقييم اختبارات القبول لبرامج الدراسات العليا في الإدارة Graduate)‏ 
(Management Admission Test- AWA GMAT‏ ويقيس هذا الامتحان 
مهارات الكتابة اللفظية والرياضية» ومهارات الكتابة التحليلية. 

* تقديم خدمة تقييم المقال من خلال شبكة الإنترنت. في هذا التطبيق يقوم 
المحرك برصد درجات المقال ببساطة عن طريق استخراج سات مستندة على 
أساس (eJ‏ من المقال ويستخدم النماذج الإحصائية لربط هذه السات مع 
نوعية جودة الكتابة عموما. يتم تقييم نتيجة المقال بدرجة من ١‏ إلى ٠‏ حيث ١‏ 
هی أدنى درجة و ٦‏ هى أعلى الدرجات. 

يطبق نظام CE-rater)‏ أسلوب الانحدار الخطي المتدرج على عينة من المقالات 

التدريبية المكتوبة حول نفس الموضوع الذي تم تقييمه بواسطة مجموعة من المتخصصين 
من أجل استخراج أكثر من ٠١‏ سمة لغوية للمقال» والتي يمكن أن تكون عونا كبيرا 
في التنبؤ cocus‏ المقالات الماثلة في نفس الملوضوع. 
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يطبق نظام (E-rater)‏ المحدّث مجموعة من السمات التي يستخلصها من المقال موزعة 
إلى خمسة مجالات من التحليل؛ الأول سات خاصة بالأخطاء النحوية وأخطاء الاستخدام 
والأسلوب Style‏ الثاني هو تنظيم المقال. الثالث هو تعقيد المعجم. الرابع هو مدى 
الاستخدام الصحيح للمفردات» وأخيرا طول المقال. يتضمن نظام التصنيف (E-rater)‏ 
cola‏ تصنيف أخرى تتعلق بالمفردات ومدى ملائمة المحتوى» والتنظيم» والتطوير. 

2 نظام التصنيف (C-raterTM)‏ 

تم تطوير هذا النظام من قبل شركة خدمة الاختبارات التربوية Educational)‏ 
(Testing Service -ETS‏ أيضاء وهو معروف جيدا بالتقييم ذي الدقة العالية 
للمقالات المكتوبة» وتم التحقق منه على مقالاات متعددة من برامج الاختبار في العديد 
من مجالات المحتوى المختلفة» o‏ في ذلك العلوم» والقراءة والفهم والتاريخ. 

تستخدم تكنولوجيا نظام التصنيف (C-rater)‏ «منهجية حقيبة الكليات» 
(Bag of words approach)‏ والتى تستخدم فيها المعالحة الطبيعية العميقة للغة لتقييم 
ما إذا كانت إجابة الطالب تحتوى على النص الذي يمكن اعتباره صياغة أخرى مماثلة 
للمفاهيم الواردة في شرح الموضوع item rubric)‏ يختلف هذا المنهج عن الأساليب 
الأخرى لتحليل إجابات الطلاب (مثل تحليل الدلالة الكامنة (LSA‏ 

لإجراء عملية التقويم يقوم نظام (C-rater)‏ بإجراء AAR‏ من خطوات äl le‏ 
اللغات الطبيعية NLP‏ ومنها : 

؟ تصحيح الأخطاء الإملائية الطلاب. 

٠‏ تحديد بنية كل ila‏ نحوية. 

* حل مرجع الضمير. 

٠‏ تحليل صياغة إجابات الطلاب. 

الميزة الرئيسية لمحركات (C-rater)‏ عن باقى عر کات AES‏ الأخرى هى التحليل 
اللغوي العميق لإجابات الطلاب» وهو ما يضمن أن عملية التقييم لن تنخدع 
بالإجابات التي تستخدم الكلمات الصحيحة في سياق خاطئ. 


Ares 
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AES نتائج تطبيقات أنظمة التقييم الآلي‎ -Y , Y 
تقاس نتائج التقييم الآلي بمدى تطابقها مع التقييم اليدوي» مع الأخذ في الاعتبار‎ 
أنه نادرا يندر تطابق نتائج التقييم لشخصين ختلفين.‎ 


مقالة التقييم» وارتباط الإنسان بالإنسان وارتباط الإنسان والحاسب. 


" ارتباط الإنسان | ارتباط الإنسان‎ 
العينة الاختبا النظا‎ a reda 
j تقس سق لاختبار‎ I tua wr 
PEG (1997) GRE ۹۷ eVo . Vo—», Vé 
PEG (2002) | Pn8lish place- YA1 ۷۱ ۳ 
ment test 
IntelliMetric k-12 norm- 
(2001) referenced test ye ر٤‎ ^T 
IEA (1997) GMAT A۸ AY ۸۹ 
TEA (1999) GMAT yar AV - SA (A3 
High School 
IEA (2011) Waiting o s) y) 
e-rater (1998) GMAT Jere Oore | 5, A=, AY | 5,AV—- 8, YÀ 
GMAT - 
e-rater (2006) TOEFL vovo S (,aY 
e-rater (2011) | GRE- TOEFL moves *,40 qy 


الجدول £ :١1-‏ نتائج تطبيقات أنظمة التقييم الآلي AES‏ 
يتضح من الجدول السابق أن أنظمة التقييم الآلي للمقالات التعبيرية المكتوبة باللغة 
بنفس القدر (تقريبا) الذي تختلف فيه نتائج التقييم من شخص إلى شخص آخر. 
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-Y‏ تقييم الإجابات القصيرة. 

o]‏ نظم تصنيف درجات الإجابة القصيرة سهلة التنفيذ حيث lel‏ تهدف إلى تقييم 
محتوى المعارف والمهارات الطالب» في مقابل نظام درجات المقال التي تقوم بتقييم 
قدرة الطالب على الكتابة وتتطلب إمكانيات متطورة لتحليل النص وفهمه. نظم تقييم 
الإجابات القصيرة تتطلب أن تكون إجابة الطالب قصيرة على أن تبين مدى استيعابه 
للمفاهيم الرئيسية في مجال معين. ويقوم نظام التقييم الآلي بمقارنة إجابة الطالب مع 
واحد أو أكثر من الأجوبة الصحيحة المخزنة لديه. في الماضي القريب كانت معظم 
أنظمة التقويم تتطلب مجهودًا إضافيًا من المعلم حيث كان يتطلب منه إعداد أدلة 
الإجابات النموذجية بطريقة يدوية أو أن يوفر مُدَوّنة KAj‏ مُعنونة Annotated)‏ 
(Corpus‏ لتحديد أناط الإجابة بطريقة نصف آلية. 


تعتبر منهجية قياس تشابه النص (Text similarity approach)‏ ھی اا عمل 
نظم تقييم الإجابات القصيرة. ويوجد عدد كبير من خوارزمات التشابه بعضها يأخذ 
في الاعتبار التحليل اللغوي العميق لكل من إجابة الطالب وإجابة المدرس والبعض 
الأخر يأخذ في الاعتبار العبارات القصيرة المشركة بين الإجابتين. 


يلعب التشابه الدلالي بين كلمتين دورا كبيرا في الوصول إلى التشابه الدلالي بين 
حملتين (غالبا ما يتم ذلك باستخدام تقنية المعلومات المتبادلة بين كلات الحملتين 
.(pointwise mutual information‏ ولکن كيف يمكن حساب التشابه الدلالي بين 
كلمتين (مثل الكلمتين شجرة» نخلة أو كتاب وكراسة)؟ 
توجد طرق كثيرة لذلك نذكر منها الطرق التالية: 
٠ Leacok & hodorow.‏ 
Lesk.‏ * 
Wu& Palmer.‏ * 
Resnik.‏ * 
Lin.‏ ° 
Jiang & Conrath.‏ ° 
Hirst & St-Onge.‏ * 
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* Corpus based Similarity combined with Explicit Semantic 
Analysis (ESA). 
* Corpus based Similarity combined with Latent Semantic 
Analysis (LSA). 
Je o سبة‎ coUa التشابدايين كلقن عن طريق‎ Lesk يقيس‎ QUU فعل سيل‎ 
بين التعريف المناظر لكل كلمة على النحو المنصوص عليه من قبل القواميس الشهيرة.‎ 
التشابه بين كلمتين عن طريق قياس مدى التباعد بين‎ (Wu& Palmer) وأيضا يحدد‎ 
(WordNet) موقع الكلمتين في شبكة الكلات المعجمية للغة الإنجليزية‎ 
وفيا يلي ناذج من أنظمة درجات الإجابات القصيرة‎ 


(UCLES) نظام أكسفورد‎ VY 
أنماط الإجابة النموذجية» ويتم تعلم النظام باستخدام عدة أساليب لتعلم الآلة مثل‎ 
«(Bayesian Learning) وتقنيات بايز‎ «(Decision trees) أسلوب شجرات القرار‎ 

وأساليب ie JI‏ المنطقية الاستقرائية .(Inductive Logic Programming)‏ 
لتقييم مدى جودة نظام أكسفورد فقد تم تجربته على تقييم إجابات تسع أسئلة 
o^‏ مقرر الأحياء à‏ شهادة الثانوية العامة الأمريكية General Certificate of)‏ 
(Secondary Education -GCSE‏ تم تجميع 51١‏ إجابة تجريبية لكل سؤال من 

الأسئلة التسعة. وتراوحت علامات الدرجات لمذه الأسئلة من ١‏ إلى .٤‏ 

ومن بين ۲٠١‏ إجابة لكل سؤال تمّ اختيار Y‏ إجابة والدرجة المصححة لكل 
منها وذلك لتدريب نظام أكسفورد على كيفية الإجابة (من خلال بناء نموذج لتعلم 
الآلة) واستخدمت ٠١‏ إجابة متبقية في اختبار النظام. أوضحت النتائج تطابق نتيجة 
LAE‏ 
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(C-rater) نظام التقييم‎ -Y,Y 
يستخدم في تقييم الأسئلة المقالية» إلا أنه يستخدم‎ (Crater) بالإضافة إلى كون‎ 
يستخدم التحليل‎ «df أيضا في تصحيح الأجوبة القصيرة. وهو نظام وضع درجات‎ 
الصرفي والمترادفات» وهيكل الإسناد والوسيط ومرجع الضمير لتقييم الإجابات‎ 

القصيرة المعتمدة على المحتوى. 

تم تقييم كفاءة نظام التصنيف (C-rater)‏ من خلال Og»‏ للتقييم واسعة النطاق. 
كان البرنامج الأول هو مشروع التقييم الوطني للتقدم التعليمي بالولايات المتحدة في 
الرياضيات .(National Assessment of Educational Progress- NAEP)‏ وقد 
استخدم نظام التصنيف (C-rater)‏ لتقييم إجابات الطلاب الخاصة بتفسير الحلول 
V, Y‏ حملة أو عدد ١6‏ كلمة. 

البرنامج الآخَر هو برنامج إدارة وتصحيح مقرر الإنجليزية في جامعة إنديانا 
الأمريكية من خلال شبكة الإنترنت. في هذه ا حالة» كان مطلوبا من برنامج (C-rater)‏ 
تقييم سبعة أسئلة لفهم المقروءات» حيث الإجابات على هذه الأسئلة أكثر انفتاحا من 
إجابات الأسئلة المتعلقة بفهم الحلول الرياضية NAEP‏ 

تم اختيار وتقييم استجابات الطلاب بين 55 Y‏ و Ul ee Yo:‏ من قبل اثنين من 
المصححين Eu‏ وبواسطة نظام التصنيف C‏ وكان معدل اتفاق النظام مع المصحح 
البشري الأول l ZAE, é‏ كان معدل الاتفاق بين النظام والمصحح البشري الثاني 
AY , ٦‏ وكان معدل الاتفاق المتوسط بين الاثنين من المصححين البشر 8 , AS‏ 

وهذا يعني أن أداء نظام التصنيف C‏ كان مشجعا في حالة تقييم الأسئلة الملوضوعة 
من قبل منظومة التقييم الوطني للتقدم التعليمي بالولايات المتحدة NAEP‏ 

(Automark) نظام تسجيل الدرجات آليا‎ -YY 


الدرجات المحَوسّبة على إجابة نص حر على أسئلة مفتوحة» ويستخدم تقنيات استخراج 
المعلومات (Information Extraction)‏ لاستخلااص e eal‏ الكامن أو المعنى وراء 
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النص الحر. يستند وضع الدرجات فيه أساسا إلى تحليل المحتوى مع الوضع في الاعتبار 
بعض سات الأسلوب التي ينبغي النظر فيها. تمر عملية وضع الدرجات من خلال 
أربع مراحل. 
أولا: تتم المعالجة المسبقة لإجابة الطالب حتى تكون موحدة من حيث الإملاء 
وعلامات الترقيم» والتأكد من أن النظام يتسامح مع أخطاء الإملاء والكتابة 


ET 
ثانيا: يقوم محلل الجملة بالتعرف على المكونات النحوية الرئيسية للنص وكيفية‎ 
ارتباطها.‎ 


رابعا: وني Ile‏ المطاف تقوم وحدة «التعليق على إجابة الطالب» بمعالحة نتيجة 
تطابق الإجابة مع النمط D gll‏ ويكون التعليق على إجابة الطالب في صورة 
الدرجة التى يحصل عليهاء ومن الممكن أن تكون أكثر تحديذا. 
تم اختبار التقييم الآلي CAutomark)‏ لتقييم المناهج الوطنية الأمريكية للعلوم 
لتلامذة 3( عمر الإحدى عشرة سنة National Curriculum Assessment of)‏ 
(Science for eleven years old pupils‏ وكان شكل إجابات الطلاب : كلمة 
واحدة» قيمة واحدة» وصف الحملة التفسيرية القصيرة» أو وصف النمط الموجود 
5 - تقييم درجات الكلام 
تقييم درجات الكلام آليا يشبه إلى حد كبير تقييم المقال المكتوب آليا. 


أولاء يتم استخراج سمات اللغة ذات الصلة» ومن ثم يتم استخدام نموذج لحساب 
الدرجات على أساس مزيج من هذه السمات. يختلف التقييم الآلي للمقال المكتوب 
عن تقييم الكلام المنطوق في نقطتين رئيسيتين النقطة الأولى: أن تقييم الكلام المنطوق 
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يتطلب برمجة إضافية لتحويل الكلام إلى كتابة. النقطة الثانية: عادة ما يكون اختبارات 
الكلام لغير ناطقى اللغة الأصلية .(Non native speakers)‏ 

تصنف مهام رصد درجات الكلام في فئتين أساسيتين : مهام فوضى منخفضة ومهام 
فوضى قصوى. 

تقوم مهام الفوضى المدخفضة برصد درجات الاستجابات التي يمكن التنبؤ بها إلى 

* القراءة الشفوية من فقرات مكتوبة. 


طلب إجابة منطوقة لأسئلة محددة الإجابة .(Factual Questions)‏ 

* طلب وصف صورة بسيطة. 

في المقابل فإن مهام الفوضى القصوى تقوم بالتعامل مع الكلام المتجدد - مقصودًا 
ots‏ أم عفويًا. 

eb‏ يلي نماذج من أنظمة تقييم الكلام: 

(SpeechRater ETS Engine) حر ك أو آلة مصنف الكلام‎ ١5 

يعتبر (SpeechRater) Bye‏ أحد تطبيقات رصد درجات الاستجابة؛ حيث 
يستخدم لتقدير درجات الاستجابات العفوية» o‏ في ذلك مجال الاستجابات الممكنة 
مفتوحة النهاية على النقيض من الإجابات المقيدة. 
طريق تقدير الدرجات باستخدام آلة مصنف الكلام كجزء من اختبار ممارسة تويفل 
TOEFL‏ من خلال الإنترنت منذ عام .70١5‏ تركز مسابقات تقييم أنظمة التعرف 
على الكلام وتقييمه على الجوانب ذات المستوى المنخفض من إنتاج الكلام مثل النطق 
(pronunciation)‏ باستخدام مهام مقيدة من أجل زيادة الموثوقية في النظام. على 
النقيض من ذلك op‏ 2 3 مصنف الكلام (The SpeechRater)‏ يعتمد على مفهوم 
واسع لبناء إجادة الحديث بالإنجليزية» ويشمل جوانب التوصيل ALI‏ للكلام (مثل 
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الطلاقة في الحديث ودقة النطق)» وتسهيلات قواعد اللغة والقدرات رفيعة المستوى 
التي تتعلق بالتماسك الموضعيٌّ وتطور الأفكار. 

يعالج i)‏ مصنف الكلام (SpeechRater engine)‏ كل استجابة مع نظام التعرف 
JYI‏ على الكلام ا مكيف خصوصا للاستخدام مع الإنجليزية العامية. واستنادا إلى مرج 
هذا النظام» يتم استخدام معالحة اللغات الطبيعية لحساب مجموعة من السمات التي تميز 
«صورة) من الكلام بناء على عدد من الأبعاد اللغوية» بها في ذلك الطلاقة» واستخدام 
المغردات» والنطق واللحن في الكلام. تستخدم هذه من أجل تعيين درجة تقييم Cile‏ 
لإجابة الطالب. ea‏ يتم تشييد بنية هذا النموذج من التقييم من قبل خبراء المحتوى» 
فإنه أيضا يتم التدريب على قاعدة بيانات من نتائج تقييم إجابات سابقة بواسطة خبراء 
في المجال وذلك من أجل ضان أن يحقق محرك مصنف الكلام محاكاة عالية لتقييم 
الإنسان بقدر الإمكان. علاوة على ذلك إذا اكتشف النظام عدم قدرته علي تقييم إجابة 
الطلاب المنطوقة نتيجة مُشكلات جودة الصوت أو أيّة مُشكلات أخرى» OB‏ محرك 
تصنيف الكلام يمكنه وضعها جانبا للمعالجة الخاصة. 

وتسعى شركة (Educational Testing Service -ETS)‏ صاحبة نظام 
1 إلى تطوير العديد من خصائص المعالجة الطبيعية للغة (NLP)‏ لتمثيل 
التعبيرات النحوية واكتشاف ملامح هيكل استجابة الردود المنطوقة. كا تسعى إلى 
زيادة قدرة النظام للاستخدام على نطاق واسع من المستخدمة في عمليات تقييم كفاءة 
الكلام باللغة الإنجليزية» با في ذلك مجموعة من الخيارات المقيدة جداً (مثل قراءة 
فقرات مكتوبة بصوت عال»» مرورا بالبنود الأقل تقييدا (مثل مهام تلخيص وقراءة 
نص مكتوب)» إلى الخيارات المفتوحة بشكل كامل. 

5 ,7- محرك أو آلة مصنف الكلام فرسانت (PKT Versant)‏ 

تطبيق فرسانت (PKT Versant)‏ هو اختبار آل للغة المنطوقة» والذي يمكن تنفيذه 
بسهولة عبر الحاتف أو جهاز الحاسب من قبل مجموعات كبيرة من المرشحين. ويتم 
رصد درجات الاختبارات آليا في غضون دقائق تلقائياء ويتمكن هذا التطبيق من 
تنفيذ كل من: تقديم نتيجة الرصد عموماء بالإضافة إلى رصد درجات المهارة الأعلى. 
وقد ساعدت اختبارات التطبيق كلا من الشركات والوكالات الحكومية والجامعات 
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والمدارس في القياس الدقيق والسريع لمهارات التحدث بالإنجليزية» أو بالإسبانية» 
أو بالعربية في أكثر من ٠٠١‏ دولة حول أنحاء العالم من أجل أغراض الاختبارات 
والتدريب. 

يقوم نظام اختبار فرسانت e Uf (Versant)‏ ردود الاستجابات للعديد من 
المهام المختلفة. تتضمن اختبارات نظام فرسانت: القراءة بصوت عال» وتكرار الجمل» 
وبناء الجمل» وإعطاء الأجوبة على أسئلة قصيرة» رواية قصص قصيرة» واختيار 
الاستجابة» والمحادثة» وطريقة القراءة والفهم. في اختبار الكتابة لهذا التطبيق OB‏ بند 
المهام يتضمن: الكتابة» وإكمال الجمل» والإملاء وإعادة البناء» وكتابة رسائل البريد 
الإلكتروني. بالنسبة لبعض المهام» مثل القراءة والتكرار فهناك سلسلة واحدة من تتابع 
الكلمات هي بالضبط الصحيحة المتوقعة لكل استجابة. في مهام أخرى» يمكن أن تكون 
العناصر متعددة الأجوبة الصحيحة. تمر كافة عناصر الاختبار بإجراء اختبار مسبق 
عالي الكثافة على عينات مختلفة متنوعة من الناطقين وغير الناطقين باللغة في طائفة 
واسعة النطاق من محال مستوى القدرة. 


(EduSpeak) محرك أو آلة مصنف الكلام إديو سبيك‎ - , ٤ 

نظام إديو سبيك (EduSpeak)‏ من SRI‏ الدولية نظام مجموعة أدوات تطوير 
برمجيات تمكن مطورو البرمجيات من تعليم اللغة تفاعليا باستخدام أحدث نظم 
تكنولوجيا التعرف على الكلام والنطق وتسجيل الدرجات. 

يسمح رصد درجات النطق الآلي للحاسب بتقديم ملاحظات التغذية العكسية 
(Feedback)‏ على الجودة النوعية الشاملة للنطق للإشارة إلى مُشكلات التوليد 
المحددة. (S‏ يسمح بمعاينة المنهج في رصد درجات النطق» حيث إن ال هدف هو تقدير 
درجة التقييم لنوعية نطق فقرة أو جملة يسعى الخبير البشري إلى تعيينها . وتدعم أدوات 
إديوسبيك (EduSpeak)‏ وظيفة استشعار خطأ النطق على مستوى posse EU‏ 
قواعد البيانات من الكلام وتقيبيات الإنسان عل deus‏ الحملة خيث إن بعض 
المقاطع عبر الحاتف تفتقر إلى جودة النطق» ومن الممكن تزويد الطالب بالتغذية العكسية 
وملاحظات حول عن أخطاء نطق محددة. 
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جرى تقييم قدرة النظام على الكشف عن أخطاء النطق (à Gnispronunciation)‏ 
قاعدة بيانات صوتية من 17٠١‏ آلف هاتف لحمل حديث متصل قاها ۲٠٠١‏ شخص من 
غير الناطقين باللغة الأم وتم تحويلها إلى نصوص مكتوبة. أظهرت النتائج أن نسبة الخطأ 
أعلى قليلا من الخطإ البشري. 


0- أنظمة تقييم الرياضيات 
في مجال الرياضيات» فإن أداء نظم رصد الدرجات آليا قوية عندما يتم تقييد شكل 
الاستجابة. تتعامل نظم تقييم الرياضيات مع بنود الرياضيات التي تتضمن المعادلات 
أو التعبيرات الرياضية» والأشكال الهندسية ثنائية الأبعاد والخطوط المتصلة وغير 
المتصلة أو الخط المنحنى والرسوم البيانية والأشرطة» ومدخلات الأرقام. 
يشهد المجال حاليا ارتفاعًا في جودة هذه الأنظمة» ومن المتوقع أن تنجز هذه النظم 
مهامها بدقة عالية دون الحاجة لمراجعة المصحح البشري. 
وفيها يلي نموذج لإحدى الأسئلة الاختبارات وتتطلب إجاباتها رسومًا بيانية تقوم 
نظم التقييم الآلية بتصحيحها ومنحها درجة تقييم: 
«عائلة تسافر بسرعة ثابتة خلال رحلة الطريق. بعد Y‏ ساعات من السير توقف 
لمدة ساعتين لتناول الطعام والراحة. ثم استأنفت السفر لمدة >٤‏ ساعات أخرى 
بنفس السرعة. ارسم رسم بياني تمثل به هذا الوضع». 
وهذا نموذج آخر لأسئلة تتطلب صياغة الإجابة في صورة تعبير ومعادلات 
رياضية: 
«في يوم واحدء باع أحد المتاجر عدد ٠٠٠١‏ قميص بتخفيض قيمته /.۲١‏ من 
السعر العادي وهو س للقميص الواحد. 
عبر بصورة رياضية عن Ue]‏ المبلغ الذي حصل عليه المنجر ني ذلك اليوم». 
وفيمايلٍ ناذج من أنظمة تقييم الكلام: 
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3,0- نظم تقييم الرياضيات (m-rater)‏ 

نظام 3,2 مصنف درجات الرياضيات من شركة (ETS's mater)‏ وهو محرك 
يستعمل في رصد الدرجات للاستجابات الرياضية مفتوحة النهاية» مثل تلك التي تأخذ 
شكل تعبيرات أو معادلات رياضية» أو رسوم بيانية. منذ أواخر تسعينيّات القرن العشرين 
ECE‏ 


(MathQuery) نظم تقييم الرياضيات‎ -Y,o 

3,2 ماث كويرى (MathQuery)‏ من شركة بيرسون (Pearson)‏ يعمل في بيئة 
الإنترنت ويقوم بتقيبم مهارات التفكير الحرجة في الرياضيات حيث يتعامل مع مسائل العالم 
الحقيقى التى يمكن حلها بأكثر من طريقة واحدة والتى يمكن أن تكون ها حلول صحيحة 
عدن ولس اور 6 ردهت اال اه 

يقوم المحرك (MathQuery)‏ بتحليل سلسلة الخطوات أو المسار إلى الحل. وبالنسبة 
للتعبيرات الرياضية» يقدم المحرك محرر لكتابة المعادلات يمكن تخصيصه لمختلف مستويات 
الدراسة وموضوعات المحتوى ومزود برموز الجبر والرموز اللازمة لحساب التفاضل 
والتكامل وغيرها من المقررات الرياضية. 


اليه الكشف عن السرقات الأدبية (Plagiarism Detection Systems)‏ 

تستخدم هذه الأنظمة في الكشف عن السرقات الأدبية التي تتم في المقالات العلمية 
والأدبية. وتعتمد هذه الأنظمة في تقنياتها على التشابه بين نص ما وبين النص الأصلي 
الذي سبق نشره في تاريخ سابق. يتم فحص التشابه على نطاقين: النطاق الأول على 
مستوى النص ككل مثل أسلوب الكتابة (Stylometry)‏ والنطاق الثاني على مستوى 
الفقرات وهو ما يطلق عليه المستوى المحلي. 

وتقنية بصمة النص (Fingerprint)‏ على مستوى النص ككل فى dotes] s V.‏ 
تقوم alil‏ لفت عن السرقات الأدبية geh odd uasa colos del ela‏ 
من المقالات المنشورة. وفي حالة فحص مقالة أو نص جديد يتم مقارنة بصمتها مع 
قاعدة البيانات. في حالة الكشف الإيجابي يتم الفحص التفصيلي بين هذا النص وبين 


Ap 
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ولا يسمح بنشرها ورقياً أو تداولها تجارياً 
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النصوص المكتشفةء فإذا كانت نسبة التشابه أعلى من قيمة معينة فيعتبر ذلك مؤشرًا 


قويًا على وجود سرقة أدبية. 


.(Paraphrase Plagiarism) الاحتيال عن طريق إعادة الصياغة‎ -Y 


. (Translation Plagiarism) is jJI الاحتيال عن طريق‎ - ٤ 


و السرقات الأدبية تنقسم إلى الأنواع التالية: 
-١‏ نسخ ولصق (Copy and Paste Plagiarism)‏ . 
Y‏ - الاحتيال .(Disguised Plagiarism) „K4‏ 


.(Idea Plagiarism) قة الأفكار‎ PL 


تتجه البحوث حاليا إلى الكشف عن السرقات الأدبية عن طريق الترجمة» وهو ما 


. (Cross Lingual Plagiarism Detection -CLPD) يطلق عليه‎ 


وفيا يلى قائمة ببعض الأنظمة المستخدمة للكشف عن السرقات الأدبية: 


TERA‏ أنظمة متاحة للجمهور 

Chimpsky Attributor 

CitePlag Copyscape 

CopyTracker Iparadigms: Ithenticate, Turnitin 

eTBLAST Plagiarismdetect 

Plagium PlagScan 

SeeSources Urkund 
The Plagiarism Checker Veriguide 


توجد جهود بحثية قليلة جدا في هذا المجال رغم أهميته التعليمية وترجع صعوبة 


-V‏ أنظمة التقييم الآلي ودعم اللغة العربية 


تنفيذ أنظمة التقييم الآلي التي تدعم اللغة العربية إلى lef‏ تتطلب معالجات لغوية عميقة 
وهي غير متوفرة حتى يومنا هذا بصورة مرضية. 
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ولكن هذا لا يمنع من البدء في بناء أنظمة تقييم الأجوبة القصيرة وهي لا تتطلب 
العمق التحليلي اللغوي كما هو الحال بالنسبة للأسئلة المقالية. ولكنها تتطلب وجود ما 
هو مماثل لشبكة الكلمات للغة الإنجليزية (WordNet)‏ وشبكة الكلمات الدلالية للغة 
الإنجليزية .(Senti WordNet)‏ 


8- الخلاصة 

تتنوع مجالات التصحيح I‏ للامتحانات. وقد تم تقديم مختلف النظم الآلية في 
A E EN EE‏ 
بين رصد الدرجات بشريا ورصد الدرجات بواسطة النظام. أصبحت نظم رصد 
الدرجات آليا واقعاء وطالما هناك فرق بين رصد درجات البشريٌ ورصد الدرجات 
الآلي فإن موضوع الدقة هي نقطة جيدة للبحث. 

تم تعريب أدوات ونظم وتطبيقات وحزم البرمجيات الجاهزة من خلال تزويدها 
بالحروف المطبعية (Fonts)‏ الخاصة باللغة العربية والقدرة على تداول الحروف العربية جنبا 
إلى جنب مع الحروف اللاتينية مع الأخذ ني الاعتبار خصائص كتابة اللغة العربية من حيث 
C)‏ اتجاه الكتابة (من اليمين إلى GUAE‏ (ب) ومن تغير شكل الحروف طبقا لموقعه في 
الكلمة» (ج) ومن حيث ترتيب شفرة الحروف Gl)‏ حرف السين قبل حرف الشين مثلا). 

في نظام تشغيل الحاسب - مثل: نظام ويندوز ميكروسوفت - $i‏ نظام التشغيل 
الخصائص السابقة لمعظم البرمجيات والتطبيقات D‏ تعمل تحت مظلته» إلا أن 
التطبيقات الحديثة» مثل : إدارة المعرفة» آلات البحث الذكية» تحويل النصوص المكتوبة 
إلى نصوص منطوقة» وتصحيح درجات الطلاب.. لا تكتفي بالتعامل مع النصوص 
على مستوى الحرف والكلمة لكنها تتعامل مع الجملة شكلا ومعنى. 

لا يضاح مع التطبيقات اد ca nl a La‏ عل el gan‏ للتعامل مع 
اللغة الأم وهى اللغة العربية» Ena‏ يستدعي تعريب هذه التطبيقات أخذ شكل ومعنى 
الكلمة والجملة العربية في الاعتبار» كا أن الاكتفاء بالمعالجة على مستوى الحرف غير 
كاف في التطبيقات الذكية والمستقبلية» وهناك قصور شديد في تعريب هذه التطبيقات 
يجب تداركه في المستقبل القريب بقدر الجهد والاستطاعة. 
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الدكتور/ oe‏ عبد SAJI‏ علي رشوان 

xn‏ متي dl‏ بقسم الإلكترونيات والاتصالات 
الكهربائية في كليّة اهندسة - جامعة القاهرة. تخرّجَ عام ٠۹۷۷‏ 
وكان الأول على دفعته» وحصل على a»‏ ماجستيرات» ثم 
على b gll‏ من جامعة كوين بكندا؛ أشرف على أكثر من مائة 
رسالة ماجستير ودكتوراه. يدير الشركة ا هندسيّة لتطوير GE‏ الرّقوِيّة ۸51 ai‏ 
في مجال تقنيات اللّغة العربيّة. 


الدكتور/ Seal‏ بالله السّعيد ab‏ 

أستاذ الدراسات E‏ ية المُساعد بجامعة القاهرةء وأستاذ 
dot Lotes‏ ا Eu‏ العُلياء 
LÁ‏ وحدة الموارد ال عة بمشروع م مُعجم الدّوحة. 
LS‏ نحو GSN‏ ورقة chle‏ بالإضافة إلى Bo‏ 
في المُعجوية QI‏ والدّراسات S‏ المُعاصرة» ce‏ فل اکر من fip‏ 
مشرُوعاتٍ بحي دولية في ميادين aLi‏ اللغات fa~. EÍ‏ على عد من الجوائز 
في مَيدان تخصصهء منها : جائزة (ألكسو £u (ALECSO‏ والابتكار في t Lam‏ 
co di as ZO aL d JI,‏ وساف زة راشد بن ميد للعلوم والثقافة. 


الدكتور/ AS‏ عَطِيّة نحمَّد gj‏ 

حصل من جامعة القاهرة على بكالوريوس هندسة 
الماجستير في هندسة الحاسبات عام ١٠٠٠م,‏ ثم على درجة 
الدكتوراه في هندسة الاتصالات الكهربائية والإلكترونيات 
عام ١٠٠م. Jat‏ بالشركة الهندسية لتطوير النظم RDI EaSI‏ منذ يوليو ۹۹۵٠م‏ 
إلى Re‏ ۲۰۱۰م» وبينَ ule‏ ۲۰۰۷م و ١٠١1م‏ أستاذا زائرًا في كلية الحاسبات 


وتقنيات المعلومات بالأكاديمية البحرية للعلوم والتكنولوجيا والنقل البحري - فرع 


a 


هذه الطبعة إهداء من SA‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
mn——————————E 1 5‏ 


VILRIARGUERCA TRE للبرمجيات بشركة الو‎ aae القاهرة»‎ 
iili تعجر‎ pa tl coo dl اسورد‎ cob للعو‎ eot s eSI d] e doa 
PYNT a م7١١5 التاريخي» بين عامَيْ‎ 
عبد المنعم عَفيفي‎ ARE. الدكتور/‎ 

حصل من جامعة اا الدكتوراه في هندسة 
الحاسبات. يعمل - في الوقت الحالي - مُدِيرًا لأبحاث الصوت 
بمعامل شركة مايكروسوفت - القاهرة. عمل باحثا في معمل 
اديه سح Bade‏ 


aM pou 


الدكتور/ شريف مهدي عبده 

حصل على درجة الدكتوراه في هندسة الحاسبات عام ۳٠٠۲م‏ 
من جامعة ميامى بالولايات المتحدة الأمريكية. يعمل حاليا أستاذا 
ورئيسًا لقسم تكنولوجيا المعلومات بِكُلَيّة الحاسبات والمعلومات 
à‏ جامعة القاهرة؛ بالإضافة إلى عمله استشاريًا لتقنيات r* des‏ 
اللغة ÉSA‏ فى عدد من المراكز البحثية. عمل - لفترة - : 
بشركة BBN‏ الأمريكيّة» وقد تلقى تدریباتِ عمليّة في dh i‏ اللّغات Bell‏ 
ia o 3S jt Labs‏ ورک ات x‏ جا RS AT gol s‏ 5 
يربو عل Hlc Ey‏ 
براءة اختراع عن تقنية (حفص ©). 


-1١60 وه‎ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ل 


الدكتور/ علي علي فهمي 

هو الخد التاق 2 التاسيات والمعلومات فى tule‏ 
القاهرة؛ يعمل - في الوقت الحا - أستادًا في الذّكاء الاصطناعي 
وتعلم الآلة. fos‏ خلال الفترة من ۲۰۰۵ إلى 7٠٠١‏ مُديرًا ركز 
التميز في التنقيب في البيانات ونمذجة اللغة DMCM‏ في مصرء 
وله إسهاماث يحل بار ف ات اللخ PEREAT‏ 


-١601١ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


مباحث لغوية 0۸ 


تطبيقات اساسية في 
المعالجة الالية للعة العربية 

يُصدر مركز الملك عبدالله بن عبدالعزيز الدولي لخدمة اللغة العربية هذا الكتاب ضمن سلسلة 
(مباحث لغوية)ء وذلك وفق Alas.‏ عمل مقسمة إلى مراحلء لموضوعات علمية رأى المركز حاجة المكتبة 
اللغوية العربية إليهاء أو إلى بدء النشاط البحثي فيهاء واجتهد 2 استكتاب نخبة من المحررين والمؤلفين 
للنهوض يعنوانات هذه السلسلة على أكمل وجه. 

ويهدف المركز من وراء ذلك إلى تنشيط العمل 2 المجالات التي تَنَبّه إليها هذه السلسلة؛ سواء أكان 
العمل علميا بحثياء آم عمليا تنفيذياء ويدعو المركز الباحثين كافة من أنحاء العالم إلى المساهمة .2 هذه 
السلسلة. 

Ss‏ الأمانة العامة أن تشيد بجهد السادة المؤلفين» وجهد مُحرّرَي الكتاب» على ما تفضلوا به من رؤى 
وأفكار لخدمة العربية 4# هذا السياق البحثى. 

والشكر والتقدير الوافر لمعالي وزير التعليم المشرف العام على المركزء الذي يحث على كل ما من 
شأنه تثبيت الهوية اللغوية العربية: وتمتينهاء وفق رؤية استشرافية محققة لتوجيهات قيادتنا الحكيمة. 

والدعوة موجهة إلى جميع المختصين والمهتمين للتواصل مع المركز؛ لبناء المشروعات العلمية؛ وتكثيف 


الجهود. والتكامل نحو تمكين لغتنا العرييةء وتحقيق وجودها السامى 4# مجالات الحياة. 


الأمين العام للمركز 
أ. د. محمود إسماعيل صالح 
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